语音识别技术详解

发布时间：2024/5/8 3:13:48 阅读次数：10895

    （3）模式匹配及模型训练技术

    模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

    语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。

    DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

    HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程（可观测的）。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称DHMM）和连续隐马尔可夫模型（采用连续概率密度函数，简称CHMM）以及半连续隐马尔可夫模型（SCHMM，集DHMM和CHMM特点）。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。

上一页 [1] [2] [3] [4] 下一页