1. 语音识别是指什么
语音识别就是相关的电子设备对人类声音的识别技术,可以通过这种技术进行加密设置
2. 语音识别器属于输入设备
A、键盘 D、读卡机
3. 什么是智能语音识别系统
语音识别:给机器装上耳朵,使其能够听懂人的语音指令。
智能语音识别系统:能够对语音识别到的信息进行进一步的处理,一般来说是将语音识别、NLP自然语言理解、知识库三方面与应用向结合。使用户通过自然的语言来控制相应设备。
智能电视:长虹ciri、联想K91、海信xt770、康佳9000、创维E700、750、800等
智能手机:小米1S、金立、步步高、康佳等
智能车载导航:上汽ivoka
4. 语音识别中的ASR技术通识 2019-12-06
ASR(Automatic speech recognition),自动语言识别,自动将语言转化成文字的过程,作用类似于人类的耳朵。
流程:输入-编码-解码-输出
语言识别输入的是声音,属于计算机无法识别的模拟信号,所以需要通过模型将其转化成数字信号,并对其中的特征进行提取,编码时,会将声音切成很小的片段,成为 帧 ,类似于视频中最小时间单位的帧。帧和帧之间会有一定的重叠。
对于得到的每一帧,按照人耳听声的特定的MCFF规则,提取其中的特征,转成 多维向量 。向量中的每一个维度可以看做是这一帧中的特征。
解码过程是将得到的向量变成文字的过程,其中用到两个模型 声学模型 和 语言模型 。声学模型是将特征向量转化成单个字母(中文的拼音声母和韵母),成为音素。语言模型是将音素拼接起来成为单词或者汉字。两种模型都需要大量的语言数据进行训练。
传统识别方式:隐马尔可夫模型(HMM)
端到端识别方式:神经网络(DNN,deep neural network)
两种识别方式主要的差异在声学模型上。
目前中文的识别率在97%以上,距离理想的99%还有很大的差距。
“远场”。下面主要说3个概念:
语音激活检测、语音唤醒、以及麦克风阵列。
1)语音激活检测(voice active detection,VAD)
A)需求背景:在近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰,简单算法也能做到有效可靠。
但远场识别场景下,用户不能用手接触设备,这时噪声比较大,SNR下降剧烈,必须使用VAD了。
B)定义:判断什么时候有语音什么时候没有语音(静音)。
后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。
2)语音唤醒 (voice trigger,VT)
A)需求背景:在近场识别时,用户可以点击按钮后直接说话,但是远场识别时,需要在VAD检测到人声之后,进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,Google的“OK Google”,亚马逊Echo的“Alexa”等。
B)定义:可以理解为喊名字,引起听者的注意。
VT判断是唤醒(激活)词,那后续的语音就应该进行识别了;否则,不进行识别。
C) 难点 :语音识别,不论远场还是进场,都是在云端进行,但是语音唤醒基本是在(设备)本地进行的,要求更高——
C.1)唤醒响应时间。据傅盛说,世界上所有的音箱,除了Echo和他们做的小雅智能音箱能达到1.5秒之外,其他的都在3秒以上。
C.2)功耗要低。iphone 4s出现Siri,但直到iphone 6s之后才允许不接电源的情况下直接喊“hey Siri”进行语音唤醒。这是因为有6s上有一颗专门进行语音激活的低功耗芯片,当然算法和硬件要进行配合,算法也要进行优化。
C.3)唤醒效果。喊它的时候它不答应这叫做漏报,没喊它的时候它跳出来讲话叫做误报。漏报和误报这2个指标,是此消彼长的,比如,如果唤醒词的字数很长,当然误报少,但是漏报会多;如果唤醒词的字数很短,漏报少了,但误报会多,特别如果大半夜的突然唱歌或讲故事,会特别吓人的……
C.4)唤醒词。技术上要求,一般最少3个音节。比如“OK google”和“Alexa”有四个音节,“hey Siri”有三个音节;国内的智能音箱,比如小雅,唤醒词是“小雅小雅”,而不能用“小雅”。
注:一般产品经理或行业交流时,直接说汉语“语音唤醒”,而英文缩写“VT”,技术人员可能用得多些。
3)麦克风阵列(Microphone Array)
A)需求背景:在会议室、户外、商场等各种复杂环境下,会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境,要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)。另外,家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。
B)定义:由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
c)云端为主。
比如地图功能,由于POI(Point of Interest,兴趣点,指地理位置数据)数据量太大,直接到云端搜索可能更方便(除非是“家”、“公司”等个性化场景)。比如,用户说“从武汉火车站到东福”,可以被纠正为“从武汉火车站到东湖”。
各家公司在宣传时,会说语音识别率达到了97%,甚至98%,但那一般是需要用户在安静环境下,近距离、慢慢的、认真清晰发音;而在一些实际场景,很可能还不够好的,比如——
1、比如在大家都认为相对容易做的翻译场景,其实也还没完全可用,台上演示是一回事,普通用户使用是另一回事;特别是在一些垂直行业,领域知识很容易出错;另外,还可详见 《怼一怼那些假机器同传》
2、车载
大概3、4年前,我们内部做过针对车载场景的语言助手demo,拿到真实场景内去验证,结果发现,车内语音识别效果非常不理想。而且直到今年,我曾经面试过一位做车内语音交互系统的产品经理,发现他们的验收方其实也没有特别严格的测试,因为大家都知道,那样怎么也通过不了。。。
车内语音识别的难点很多,除了多人说话的干扰,还有胎噪、风噪,以及经常处于离线情况。
据说有的公司专门在做车内降噪,还有些公司想通过智能硬件来解决,至少目前好像还没有哪个产品解决好了这个问题,并且获得了用户的口碑称赞的。
3、家庭场景,由于相对安静和可控,如果远场做好了,还是有希望的。
4、中英文混合。
特别在听歌场景,用户说想听某首英文歌时,很容易识别错误的。这方面,只有傅盛的小雅音箱据说做了很多优化,有待用户检验。
总之,ASR是目前AI领域,相对最接近商用成熟的技术,但还是需要用户可以配合AI在特定场景下使用。这是不是问题呢?是问题,但其实不影响我们做产品demo和初步的产品化工作,所以反而是我们AI产品经理的发挥机会。
1、远场语音识别,是最近2年的重要竞争领域。因为家庭(音箱)等场景有可能做好、在被催熟。
2、更好的机会在垂直细分领域,比如方言(方言识别能够支持40多种,而网络有20多种)、特定人群的声学匹配方案(儿童)
最后,用一张图总结语音识别用于人机交互中的几个难点。
5. 手写输入和语音识别是属于人工智能的什么应用领域
属于人工智能的自然语言处理应用领域。自然语言处理主要应用于机器翻译、手写输入、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,融语言学、计算机科学、数学于一体。因此这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别,即它是计算机科学的一部分。

自然语言处理的发展史
最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。其发展主要分为三个阶段。
1、早期自然语言处理
第一阶段(60~80年代):基于规则来建立词汇、句法语义分析、问答、聊天和机器翻译系统。好处是规则可以利用人类的内省知识,不依赖数据,可以快速起步。问题是覆盖面不足,规则管理和可扩展一直没有解决。
2、统计自然语言处理
第二阶段(90年代开始):基于统计的机器学习(ML)开始流行,很多NLP开始用基于统计的方法来做。主要思路是利用带标注的数据,基于人工定义的特征建立机器学习系统,并利用数据经过学习确定机器学习系统的参数。
3、神经网络自然语言处理
第三阶段(2008年之后):深度学习开始在语音和图像发挥威力。随之,NLP研究者开始把目光转向深度学习。先是把深度学习用于特征计算或者建立一个新的特征,然后在原有的统计学习框架下体验效果。
以上内容参考 网络-自然语言处理
6. 声音识别和语音识别算是人工智能吗
做这个行业还是蛮多的,做算法做完了之后他的环境声没有考虑进去,比如说他的原厂识音还是不好。必须要贴的很近材料就识别出来,或者周围噪音一大他也就不好了。他不是一个综合的升学产品。