Ⅰ 深度识别的工具箱可以运行语音识别程序吗
使用YQ5969,这个语音识来别技术可以支持源本地和云端识别不同需求。5米内本地识别率93%以上,云端识别率97%。这个语音识别技术特征在安静环境下的语音识别系统已经接近了人类的水平,目前也有很多实际的应用,但目前的语音识别系统在强噪声干扰情况下还很难达到实用化要求。
Ⅱ 求 voice box 文件 做语音识别用的
voicebox :语音处理工具箱的MATLAB
导言
voicebox是一个语音处理工具箱包括MATLAB的套路是保持的,而且大部分写的迈克布鲁克斯系,电机及电子工程,帝国学院,展览路,伦敦sw7 2bt ,英国。几个例程需要MATLAB的V5的。
该例程,可作为压缩tar文件或者作为一个ZIP档案,并提供了根据合同条款在GNU公共许可证。
请发送任何意见,建议,错误报告等,以mike.brookes @ ic.ac.uk.
目录
音频文件输入/输出
阅读和书写WAV和其他语音文件格式
频率表
转换之间的赫兹,梅尔,雇员再培训局和MIDI频率表
傅立叶/ DCT变换/ Hartley变换
各类相关变换
随机数生成
产生随机向量与噪声信号
向量距离
计算之间的距离向量名单
语音分析
活跃水平估计,在光谱图
的LPC分析的讲话
线性预测编码例程
语音合成
声门波形模式
语音增强
谱噪声减法
语音编码
PCM编码,矢量量化
语音识别
前端处理认可
实用功能
杂项实用功能
音频文件输入/输出
例程可供阅读,并在某些情况下,写信,各种文件格式:
读写后缀
readwav writewav 。 WAV等,这些例程允许任意数量的渠道,也能对付线性的PCM (任何精度高达32位) ,律PCM和木法的PCM 。大型文件,可以读,写在小大块。
问题补充: readhtk writehtk 。 HTK液读写波形文件所用熵的隐马尔可夫工具箱。
readsfs 。自力更生支援讲话备案系统档案,由马克huckvale在UCL的。
readsph 。 NIST的手机领域中的格式文件(包括timit ) 。
readaif 。 AIF的音频交换文件格式所使用的Mac用户。
频率大规模改建
该梅尔表是基于人类感知的正弦波足球场。该例程mel2frq和frq2mel转换之间的这种规模和频率在Hz的。
雇员再培训局,规模化,是基于等价矩形带宽的人耳。该例程erb2frq和frq2erb转换之间的利率再培训局的规模和频率赫兹。
使用MIDI标准,还明确规定了编号的半音中c正60 。该例程frq2midi和midi2frq间进行转换,这音乐频率规模和赫兹。 frq2midi会除了输出注意到在名称中字符格式。 midi2frq可以使用一般同等规模的锻炼,否则毕达哥拉斯规模只是音调。
Ⅲ matlab之语音处理与合成工具箱有没有中文版本
你可以试试这个语音合成助手,不懂版可以看权这个http://jingyan..com/article/e9fb46e1606b6a7521f76699.html
Ⅳ 研一刚接触语音识别,怎么运用kaldi工具箱做一个baseline
语音识别开发平台有很多,具体总结如下:(更详细的介绍参见本人的博文:几个常见的语音交互平台的简介和比较)
1.商业化的语音交互平台
1)微软Speech API
微软的Speech API(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API),在Windows下应用 广泛。目前,微软已发布了多个SAPI版本(最新的是SAPI 5.4版),这些版本要么作为于Speech SDK开发包发布,要么直接被包含在windows 操作系统中发布。SAPI支持多种语言的识别和朗读,包括英文、中文、日文等。
2).IBM viaVoice
IBM是较早开始语音识别方面的研究的机构之一,早在20世纪50年代末期,IBM就开始了语音识别的研究,计算机被设计用来检测特定的语言 模式并得出声音和它对应的文字之间的统计相关性。1999年,IBM发布了VoiceType的一个版。2003年,IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权,随后ScanSoft与Nuance合并,如今viaVoice早已淡出人们的视线,取而代之的是Nuance。
3)Nuance
Nuance通讯是一家跨国计算机软件技术公司,总部设在美国马萨诸塞州伯灵顿,主要提供语音和图像方面的解决方案和应用。目前的业务集中 在服务器和嵌入式语音识别,电话转向系统,自动电话目录服务等。Nuance语音技术除了语音识别技术外,还包扩语音合成、声纹识别等技术。世界语音技术市场,有超过80%的语音识别是采用Nuance识别引擎技术, 其名下有超过1000个专利技术,公司研发的语音产品可以支持超过50种语言,在全球拥有超过20亿用户。苹果的iPhone 4S的Siri语音识别中就应用了Nuance的语音识别服务。
4)科大讯飞
科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项 技术上拥有国际领先的成果。占有中文语音技术市场60%以上市场份额,语音合成产品市场份额达到70%以上。
5)其他
其他的影响力较大商用语音交互平台有谷歌的语音搜索(Google Voice Search),网络和搜狗的语音输入法等等。
2.开源的语音交互平台
1)CMU-Sphinx
CMU-Sphinx也简称为Sphinx(狮身人面像),是卡内基 - 梅隆大学( Carnegie Mellon University,CMU)开发的一款开源的语音识别系统, 它包括一系列的语音识别器和声学模型训练工具。最早的Sphinx-I 由@李开复 (Kai-Fu Lee)于1987年左右开发,使用了固定的HMM模型(含3个大小为256的codebook),它被号称为第一个高性能的连续语音识别 系统(在Resource Management数据库上准确率达到了90%+)。 最新的Sphinx语音识别系统包含如下软件包:
Pocketsphinx — recognizer library written in C.
Sphinxbase — support library required by Pocketsphinx
Sphinx4 — adjustable, modifiable recognizer written in Java
CMUclmtk — language model tools
Sphinxtrain — acoustic model training tools
这些软件包的可执行文件和源代码在sourceforge上都可以下载得到。
2)HTK
HTK是Hidden Markov Model Toolkit(隐马尔科夫模型工具包)的简称,HTK主要用于语音识别研究,最初是由剑桥大学工程学院(Cambridge University Engineering Department ,CUED)的机器智能实验室(前语音视觉及机器人组) 于1989年开发的,它被用来构建CUED的大词汇量的语音识别系统。HTK的最新版本是09年发布的3.4.1版,关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。
3)Julius
Julius是一个高性能、双通道的大词汇量连续语音识别(large vocabulary continues speech recognition,LVCSR)的开源项目, 适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM,在当前的PC机上能够实现实时的语音识别,单词量达到60k个。
4)RWTH ASR
该工具箱包含最新的自动语音识别技术的算法实现,它由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发。RWTH ASR工具箱包括声学模型的构建、解析器等重要部分,还包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化 训练和单词词根处理组件等。
5)其他
上面提到的开源工具箱主要都是用于语音识别的,其他的开源语音识别项目还有Kaldi 、simon 、iATROS-speech 、SHoUT 、 Zanzibar OpenIVR 等。
Ⅳ 急需matlab的语音工具箱 、!!!
已发送,请查收
另外这个网址里的东西应该也对你有帮助
Ⅵ 现有主要的语音/声音处理编程工具箱,SDK等主要有哪些
成儿姐,猜猜我是谁~~
Ⅶ 语音处理工具箱怎么用
解压至某个目录下(如果该工具箱是压缩的话),比如 D:\voicebox
然后在matlab中把D:\voicebox 添加到搜索路径里就行了。
Ⅷ Python中有没有类似Matlab中VoiceBox的语音处理工具箱
voicebox :语音处理工具箱的MATLAB 导言 voicebox是一个语音处理工具箱包括MATLAB的套路是保持的,而且大部分写的迈克布鲁克斯系,电机及电子工程,帝国学院,展览路,伦敦sw7 2bt ,英国。几个例程需要MATLAB的V5的。 该例程,可作为压缩tar文