语音识别库计算问题

基于DTW算法的语音识别库原理与实現 第 1 页 共 17 页 基于DTW算法的语音识别库原理与实现 【摘 要】以一个能识别数字0~9的语音识别库系统的实现过程为例阐述了基 于DTW算法的特定人孤立词语音识别库的基本原理和关键技术。其中包括对语音 端点检测方法、特征参数计算方法和DTW算法实现的详细讨论最后给出了在 Matlab下的編程方法和实验结果。 【关键字】语音识别库;端点检测;MFCC系数;DTW算法 【中图分类号】TN912.34 【文献标识码】A 0 引言 自计算机诞生以来通过语音與计算机交互一直是人类的梦想,随着计算机软硬件和 信息技术的飞速发展人们对语音识别库功能的需求也更加明显和迫切。语音识别庫技术就是 让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术属于多维 模式识别和智能计算机接口的范畴 [1] 。傳统的键盘、鼠标等输入设备的存在大大妨碍了系 统的小型化 [10] 而成熟的语音识别库技术可以辅助甚至取代这些设备。在PDA、智能手机、 智能家电、工业现场、智能机器人等方面语音识别库技术都有着广阔的前景 语音识别库技术起源于20世纪50年代,以贝尔实验室的Audry系统为标志 [1,8] 先后 取得了线性预测分析(LP)、动态时间归整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等 一系列关键技术的突破和以IBM的ViaVoice、Microsoft的VoiceExpress [9] 为代表的一批 显著成果。国內的语音识别库起步较晚1987年开始执行国家863计划后语音识别库技术才得 到广泛关注。具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识 别国家重点实验室中科院声学所等 [9] 。其中中科院自动化所研制的非特定人连续语音听 写系统和汉语语音人机对话系统其准确率和系统响应率均可达90%以上 [1] 。 常见的语音识别库方法有动态时间归整技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型 (HMM)、基于段长分布嘚非齐次隐马尔可夫模型(DDBHMM)和人工神经元网络(ANN) [1,9] DTW 是较早的一种模式匹配和模型训练技术,它应用动态规划的思想成功解决了语音信号特征 参數序列比较时时长不等的难题在孤立词语音识别库中获得了良好性能。虽然HMM模型和 ANN在连续语音大词汇量语音识别库系统优于DTW但由于DTW算法计算量较少、无需前期的 长期训练,也很容易将DTW算法移植到单片机、DSP上实现语音识别库且能满足实时性 [7] 要 求故其在孤立词语音识别库系统中仍然得到了广泛的应用。本文将通过能识别数字0~9的基于DTW算法的语音识别库原理与实现 第 2 页 共 17 页 语音识别库系统的实现过程详细阐述基于DTW算法的特定人孤立词识别的相关原理和关键技 术 1 语音识别库系统概述 语音识别库系统的典型原理框图 [1,9-10] 如图1-1所示。从图中可以看出語音识别库系统的 本质就是一种模式识别系统它也包括特征提取、模式匹配、参考模式库等基本单元。由 于语音信号是一种典型的非平穩信号加之呼吸气流、外部噪音、电流干扰等使得语音信 号不能直接用于提取特征,而要进行前期的预处理预处理过程包括预滤波、采样和量化、 分帧、加窗、预加重、端点检测等。经过预处理的语音数据就可以进行特征参数提取在 训练阶段,将特征参数进行一定的處理之后为每个词条得到一个模型,保存为模板库 在识别阶段,语音信号经过相同的通道得到语音参数生成测试模板,与参考模板進行匹 配将匹配分数最高的参考模板作为识别结果。后续的处理过程还可能包括更高层次的词 法、句法和文法处理等从而最终将输入嘚语音信号转变成文本或命令。 预处理 特征提取 测度估计 失真测度 模板库 语音输入 识别决策 识别 训练 识别结果 专家知识 图1-1 语音识别库系统原理框图 本文所描述的语音识别库系统(下称本系统)将对数字0~9共10段参考语音进行训练并建 立模板库之后将对多段测试语音进行识别测试。系统实现了上图中的语音输入、预处理、 特征提取、训练建立模板库和识别等模块最终建立了一个比较完整的语音识别库系统。 2 语音信號预处理 语音信号的预处理模块一般包括预滤波、采样和量化、分帧、加窗、预加重、端点检 测等在不同的系统中对各子模块会有不同嘚要求,如在嵌入式语音识别库系统中一般要求 有防混叠滤波电路 [5] 、A/D转换电路和采样滤波电路等而在计算机上实验时则可由音频 采集卡唍成,无需实验者亲自动手基于DTW算法的语音识别库原理与实现 第 3 页 共 17 页 2.1 语音信号采集 在Matlab环境中语音信号的采集可使用wavrecord(n,fs,ch,dtype)函数录制,也可 使鼡Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入为了 进行批量的的训练和识别处理,本系统的训练语音和识别语音全部使用“录音机”程序预 先录制如图2-1所示为数字0的训练语音00.wav的信号波形图,第(I)幅图为完整的语 音波形第(II)、(III)幅图分别为语音的起始部分和结束部分的放夶波形图。 0 0.1 0.2 0.3 0.4 语音信号是一种典型的非平稳信号它的均值函数u(x)和自相关函数R(xl,x2)都随时 间而发生较大的变化 [5,9] 。但研究发现语音信号在短时间內频谱特性保持平稳,即具有 短时平稳特性因此,在实际处理时可以将语音信号分成很小的时间段(约10~30ms [5,7] ) 称之为“帧” ,作为语音信号处悝的最小单位帧与帧的非重叠部分称为帧移,而将语音信 号分成若干帧的过程称为分帧分帧小能清楚地描绘语音信号的时变特征但计算量大;分 帧大能减少计算量但相邻帧间变化不大,容易丢失信号特征一般取帧长20ms,帧移为帧 长的1/3~1/2 在Matlab环境中的分帧最常用的方法是使鼡函数enframe(x,len,inc),其中x为语音信 号len为帧长,inc为帧移在本系统中帧长取240,帧移取80基于DTW算法的语音识别库原理与实现 第 4 页 共 17 页 2.3 预加重 对于语音信號的频谱,通常是频率越高幅值越小在语音信号的频率增加两倍时,其 功率谱的幅度下降6dB因此必须对

}

CSND已永久停更最新版唯一来源点擊下面链接跳转:

写算法的实现,离不开各种矩阵以及线性代数的运算包括矩阵求逆,矩阵分解SVD以及特征值,特征向量等;

尤其是复高斯模型或者在频域里做处理时用到复数矩阵相关运算;APP公司官网的加速链接中就有BLAS相关的API

music方法使用特征空间法估计信号(自关矩阵)嘚成分。自相关矩阵的特征值对应的不同特征向量是正交的(现在的深度学习方法也是在找若干组正交基的过程)特征值最大的对应于該信号在该特征向量上的投影值比较大,也就是包含的信息量要比其它特征向量空间中的大这在数据压缩领域有应用。

使用gsl实现MUSIC算法的實现代码片段如下:

}

作者: 专心的小猿 2765人浏览 评论数:1

為了方便各类开发者现提供免费开放Api接口,所有接口均无使用限制返回格式全是JSON,所以基本能满足大家的开发需求下面列举了100多个国內外常用API接口非常简单,略懂技术的菜鸟也能直接对接包含快递单号查询、天气查询、生活常用、文体娱乐、企业金融、通

作者: 山哥茬这里 8154人浏览

情人节,对于程序员来说只是一个正常加班的周四而已但如果你正在思索“如何过情人节”的问题,恭喜你!你已经超脱叻编程语言IDE的境界,站在程序员鄙视链的顶端! 那么程序员如何优雅的过情人节? /promotion/755 ,或者在云栖社区Java问答界面提问https:

作者: yq传送门 3786人浏览 评論数:4

随着科技的飞速发展“人工智能”无疑成为了当下最火的词。在这一领域我们仍处于非常初级的阶段,很多事情我们还不了解它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器该领域的研究包括机器人、语言识别、图像識别、自然语言处理和专

}

我要回帖

更多关于 语音识别库 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信