2.3. The SR process
The speech recognition process follows five steps
[21]:
*1. Audio input: The human voice is transmitted
through a microphone connected to a PC with a
standard sound card.
*2. Acoustic processor: The acoustic processor filters
out background noise and converts the captured
audio into a series of phonemes.
*3. Word matching: The software attempts to match
the sounds to the most-likely words in two ways.
First, it uses acoustical analysis to build a list of
possible matches that contain similar sounds.
Then, it uses language modeling (the likelihood
that a given word appears between those coming
before and after it) to narrow the list to the best
candidates. In addition, the word-matching process
draws on the user-defined domain (the set of voca-
bularies, pronunciations, and word-usage models,
as well as a model of the user’s speech and words).
The user can extend the domain by adding new
words and can create multiple domains for
different applications. Finally, continuous-speech
SR examines contextual information to predict
what words should come next in the current
phrase. This also helps the system to distinguish
among homonyms.
*4. Decoder: The decoder selects the most-likely
word based on the rankings assigned during word
matching and assembles the word along with those
selected earlier into the most-likely sentence
combination.
*5. Text output: Some SR programs include their own
word processors, but many also allow text
transcription directly into a separate word proces-
sing program or a text box in an application, such
as a web browser or e-mail program.
2.4. SR limitations
While SR requires less hardware (e.g. no keyboard
is needed for input—especially advantageous for
PDA’s) and people speaking can generate text faster
than those typing, there are some significant limita-
tions. Most important, the current state of the technol-
ogy prevents transcriptions from achieving 100%
accuracy because of slurred speech, mispronunciation,
and background noise that becomes worse in crowded
*offices [24]. Enrollment can improve the accuracy
somewhat, but this represents added startup cost.
谁可以帮我翻译下有语音识别的一个外文文章?
答案:2 悬赏:0 手机版
解决时间 2021-02-06 23:53
- 提问者网友:浩歌待明月
- 2021-02-06 01:16
最佳答案
- 五星知识达人网友:拾荒鲤
- 2021-02-06 01:54
一年多不碰语音识别了,翻译的不好,对付看吧:
语音识别过程:
语音识别可以分为5步:
1、音频输入:人类语音可以通过麦克风输入至带有标准声卡的PC机。
2、音频预处理:预处理器过滤出背景噪音,并将提取出的语音转换成一系列音节。
3、单词匹配:软件会通过两步将声音与最接近的单词匹配。首先,会根据音频分析建立包含近似词语在内的一些匹配。然后利用语言模型(即计算相似度,某个特定单词出现在其上下文环境中的概率)不断过滤,直至得出最佳候选。此外,词匹配过程可以得出一个用户定义的域(即词汇、发音及常用词模型的集合,也是用户语音和词汇的模型)。用户可以通过加入新词来扩展这个域,也可以为不同的语音应用创建多个不同的域。最后,连续语音识别系统通过上下文信息来预测在目前的短语中应该出现哪个词。
4、解码器:解码器基于单词匹配中标注的序列选择最近似的词,并根据选择将词语组合成概率最大的句子。
5、文本输出:一些语音识别程序包含单独的词处理器,但也有很多识别程序直接将单词转换功能包含在词处理程序中,或在程序中做成文本工具包,比如web浏览器或电子邮件程序。
2.4 语音识别的局限
如果语音识别器在硬件上有局限性的要求(比如无键盘可供输入的情况,特别是PDA的情况),而人们的语言又能以比打字输入更快的方式生成,那么语音识别器还是有一些重要的局限的。首先,目前的技术很难使识别率达到100%,因为有连读、错发音、背景噪声特别是办公室环境的影响。不断的循环的识别语料多少可以增加一些精确度,但这会增加额外的输入开销。
语音识别过程:
语音识别可以分为5步:
1、音频输入:人类语音可以通过麦克风输入至带有标准声卡的PC机。
2、音频预处理:预处理器过滤出背景噪音,并将提取出的语音转换成一系列音节。
3、单词匹配:软件会通过两步将声音与最接近的单词匹配。首先,会根据音频分析建立包含近似词语在内的一些匹配。然后利用语言模型(即计算相似度,某个特定单词出现在其上下文环境中的概率)不断过滤,直至得出最佳候选。此外,词匹配过程可以得出一个用户定义的域(即词汇、发音及常用词模型的集合,也是用户语音和词汇的模型)。用户可以通过加入新词来扩展这个域,也可以为不同的语音应用创建多个不同的域。最后,连续语音识别系统通过上下文信息来预测在目前的短语中应该出现哪个词。
4、解码器:解码器基于单词匹配中标注的序列选择最近似的词,并根据选择将词语组合成概率最大的句子。
5、文本输出:一些语音识别程序包含单独的词处理器,但也有很多识别程序直接将单词转换功能包含在词处理程序中,或在程序中做成文本工具包,比如web浏览器或电子邮件程序。
2.4 语音识别的局限
如果语音识别器在硬件上有局限性的要求(比如无键盘可供输入的情况,特别是PDA的情况),而人们的语言又能以比打字输入更快的方式生成,那么语音识别器还是有一些重要的局限的。首先,目前的技术很难使识别率达到100%,因为有连读、错发音、背景噪声特别是办公室环境的影响。不断的循环的识别语料多少可以增加一些精确度,但这会增加额外的输入开销。
全部回答
- 1楼网友:怙棘
- 2021-02-06 02:31
你的太长了,不然网上有翻译的地方的,教你,百度查 谷词 可以翻译
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯