智能语音行业发展分析报告终Word格式文档下载.docx

资源描述

智能语音行业发展分析报告终Word格式文档下载.docx

《智能语音行业发展分析报告终Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《智能语音行业发展分析报告终Word格式文档下载.docx（24页珍藏版）》请在冰豆网上搜索。

智能语音行业发展分析报告终Word格式文档下载.docx

语音识别技术目前在桌面系统、移动设备和嵌入式领域均有一定程度的应用，未来的发展方向应是无限词汇量连续语句非特定人语音识别系统。

综合考虑目前的人工智能和语音识别与语音合成技术的能力和客户接受度，目前企业级市场、车载语音市场、移动终端市场及教育娱乐市场有望在未来率先实现突破。

我国目前呼叫中心语音市场刚刚启动，市场规模在其后有快速增长；

车载语音识别系统市场出现快速增长，市场规模有望从2009年的6430万美元提升至2014年的2.1亿美元，年均复合增长率约为26.7%；

而移动终端语音市场和教育娱乐语音市场也同样有较大发展潜力。

目前，高技术壁垒形成寡头垄断竞争格局。

智能语音技术是人工智能的研究领域之一，其技术原理涉及声学、语言学、数字信号处理、计算机科学等多个学科，同时智能语音技术的研究周期长、投入大，使得智能语音行业具有较高的进入壁垒。

在全球范围内，目前已形成寡头垄断竞争格局，仅有Nuance、IBM、微软、Google、科大讯飞等少数厂商具备较强竞争力。

第一章人工智能的概述

1.1人工智能发展史

人工智能（ArtificialIntelligence）,英文缩写为AI,是一门综合了计算机科学、生理学、哲学的交叉学科。

人类之所以能够有智慧是由于数十亿个脑细胞不同的组织在一起工作，它们每一个都有不同的分工，这是天生的，而对于人工智能来说，我们需要让组成机器的电线像我们的脑细胞一样学会自己分工。

1950年，英国科学家图灵曾在一篇名为《计算机器与智能》的论文中提出一个简单的判断标准，这就是著名的图灵测试：

让人和机器分别位于两个房间，他们只可通话，不能相互看见。

通过对话，如果人无法判断另一方是人还是机器，那么这台机器就可认为是有智能的。

世界各地对人工智能的研究很早就开始了，但对人工智能的真正实现要从计算机的诞生开始算起，这时人类才有可能以机器的实现人类的智能。

AI这个英文单词最早是在1956年的一次会议上提出的。

经过这几十年的发展，人工智能正在以它巨大的力量影响着人们的生活。

1941年由美国和德国两国共同研制的第一台计算机诞生了，从此以后人类存储和处理信息的方法开始发生革命性的变化，计算机编程变得十分简单，计算机理论的发展终于导致了人工智能理论的产生，解决了存储信息和自动处理信息的方法。

在1955的时候，香农与人一起开发了TheLogicTheorist程序，它是一种采用树形结构的程序，在程序运行时，寻找与可能答案最接近的树的分枝进行探索，以得到正确的答案。

这个程序在人工智能的历史上可以说是有重要地位的，它在学术上和社会上带来的巨大的影响，以至于现在所采用的方法思想方法有许多还是来自于这个50年代的程序。

1956年，作为人工智能领域另一位著名科学家的麦卡希召集了一次会议来讨论人工智能未来的发展方向，从此人工智能的名字才正式确立，这次会议在人工智能历史上不是巨大的成功，但是这次会议给人工智能奠基人相互交流的机会，并为未来人工智能的发展起了铺垫的作用。

在此以后，人工智能的重点开始变为建立实用的能够自行解决问题的系统，并要求系统有自学习能力。

在1957年，香农和另一些人又开发了一个程序称为GeneralProblemSolver（GPS），它对Wiener的反馈理论有一个扩展，并能够解决一些比较普遍的问题。

别的科学家在努力开发系统时，某位（我记不清楚名字了,毕竟是外国人）科学家作出了一项重大的贡献，他创建了表处理语言LISP，直到现在许多人工智能程序还在使用这种语言，它几乎成了人工智能的代名词，到了今天，LISP仍然在发展。

在1963年，麻省理工学院受到了美国政府和国防部的支持进行人工智能的研究，其后发展出的许多程序十分引人注目，麻省理工大学开发出了SHRDLU。

在这个大发展的60年代，STUDENT系统可以解决代数问题，而SIR系统则开始理解简单的英文句子了，SIR的出现导致了新学科的出现：

自然语言处理。

在70年代出现的专家系统成了一个巨大的进步，他头一次让人知道计算机可以代替人类专家进行一些工作了，由于计算机硬件性能的提高，人工智能得以进行一系列重要的活动，如统计分析数据，参与医疗诊断等等，它作为生活的重要方面开始改变人类生活了。

在理论方面，70年代也是大发展的一个时期，计算机开始有了简单的思维和视觉，同时在70年代，另一个人工智能语言Prolog语言诞生了，它和LISP一起几乎成了人工智能工作者不可缺少的工具。

一直到70年代末形成的各种理论和相应的技术奠定了人工智能的基础。

1.2人工智能的分类

人工智能的研究在历史上大致分为两大派别：

结构派和功能派。

结构派也称仿生学派或者生理学派，他们认为人工智能既然是使机器具有人的智能，就应基于人的大脑模型的研究。

他们依据1943年由生理专家McCulloch和数理逻辑学家Pitts创立的脑模型，即MP模型，开创了用电子装置模仿人脑结构和功能的新途径。

这一研究方法也叫做“白箱”，即从对结构的了解出发，从大脑的神经元开始，进而研究神经网络模型和脑模型，提出用计算机硬件模拟神经网络，并提出多层网络中的反向传播算法，由此，从模型到算法，从理论分析到工程实现，为神经网络计算机（第六代计算机）的研制打下了基础，开辟了人工智能的又一发展道路。

这一派别的研究工作面临的问题在于如何制作具有人脑模型的计算机，而人脑结构本身就非常复杂，至今生理学界、医学界还无法彻底搞清，建立脑模型是一项非常复杂而艰巨的工作，至今仍处于研究阶段。

但是，这一派别的指导思想是从问题的本质出发，因此它决定了今后人工智能的研究和发展方向。

他们不像结构派那样绞尽脑汁去研究脑模型，而是利用目前的计算机，从解决具体问题出发，只要能够获得问题的正确求解。

这一研究方法也叫做“黑箱”，即只基于考查外部的输入和输出，只关心最后得出的结论正确与否。

他们研究人工智能的领域是非常广泛而且是行之有效的，从启发式算法到专家系统再到知识工程理论与技术等等，并在80年代取得很大发展。

1.3人工智能应用与发展

1、问题求解。

如不断开发了能够求解难题的下棋程序，如国际象棋。

在下棋程序中应用的某些技术，如向前看几步，把复杂的问题分解成一些比较容易的子问题等等，均发展演变为搜索和问题归纳这样的人工智能基本技术。

目前，该项目技术发展很快并且惊人，美国IBM公司的一台名为“深蓝”的计算机与国际象棋大师卡斯帕罗夫对弈获得了胜利。

这一事件，使世人惊呼“机器智能是否已达到或超过了人类智能。

2、逻辑推理与定理证明。

逻辑推理与定理证明是指不断开发能够对某些问题或事物进行推理证明的程序，就如同证明或推导数学公式一样，这些程序能够借助于对事实数据库的操作来证明和作推理判断。

3、自然语言理解。

目前已经开发出能够从内部数据库回答语音提出的问题的程序，这些程序通过阅读文本材料，还能够把其中的句子从一种语言翻译为另一种语言，执行用语音给出的指令和获取知识等等。

4、自动程序设计。

自动程序设计这项研究的目的在于，使计算机自身，能够根据各种不同目的和要求来自动编写计算机程序，即可用高级语言编程，还可用英语描述算法。

目前已经可以自动编写出一些简单的程序。

五、专家系统。

一般来说，专家系统是一个智能计算机程序系统，其内部具有大量专家水平的某个领域知识与经验，能够利用人类专家的知识和解决问题的方法来解决该领域的问题。

换而言之，专家系统是一个具有大量专门知识和经验的程序系统，它应用人工智能技术，根据某个领域一个或多个人类专家提供的知识和经验进行推理和判断，模拟人类专家的决策过程，以解决那些需要专家决定的复杂问题。

目前，这一领域的应用是相当广泛的，如医疗诊断，建筑工程设计，化学和地质数据分析等等，其质量已达到很高水平。

机器人学是人工智能研究的一重要领域，其中包括对操作机器人装置程序的研究。

这个领域所研究的问题，包括从机器人手臂的最佳移动到实现机器人的目标动作序列的规划方法等等。

目前，已经制造出成千上万个机器人，主要用于工业生产和军事用途上。

在工业生产方面，其智能水平普遍不高，如顺利地通过周围环境，操作电灯开关、玩具积木及餐具等物品，一个小孩就能很容易的做到，但设计一个能完成上述操作任务的机器人则很难。

因此开发高智能机器人是一个重要研究方面。

这些领域的研究成果辉煌，使人叹惊，相信随着全球性高科技的不断飞速发展，人工智能这一学科会更加日臻完善。

然而，任何新生事物的成长都不是一帆风顺的。

人工智能自1956年问世以来，就引起人们的争议，在社会上对人工智能的科学性有所怀疑，对人工智能的发展产生恐惧心理。

甚至还有些人把人工智能视为异端邪说，因此，人工智能也是在比较艰难的环境中顽强地拼搏与成长的。

尽管如此，真正的科学与任何其它真理一样，是永远无法压制的。

40多年来，人工智能获得很大发展，它引起众多科学的日益重视，已成为一门广泛的交叉和前沿科学。

第二章人工智能的应用

2.1人工智能技术在网络电脑中的应用

人工智能在网络电脑应用的基本特征就是参与、互动、分享；

参与是指网站的内容由大家提供，互动是指网站会员之间的互动、会员与公众的互动，其基本形态是朋友圈、文章评注等；

分享是指大家收藏的内容进行各种形式的输出、交换，使内容的价值最大化。

　　音乐、图片、文章等都是大家有收藏需要的内容，这些内容和大家的生活、工作、爱好、回忆等息息相关。

如何将这些内容有效地组织管理起来，使之成为真正的社会知识财富是人工智能的应用一个方面。

目前，对内容的组织管理手段主要就是分类，一是目录分类，二是tag分类（标签分类）。

要解决信息获取的准确性问题，只在宏观和中观层面进行分类思考是不行的，必须进入语义理解层面才行,做到这一点，资料库才能真正变成知识库，也才能对后续的互动、分享提供更智能化的支持。

　　互动，常规的交友、评注完全是人工行为，基本效果是不错的，但在很多情况下却不能解决问题。

如果使用上述的宏观语义理解技术，这个问题就可以得到很大程度上的解决；

每个人的收藏兴趣是通过你已经收藏的内容体现的，特别是收藏的内容达到一定量级后这种体现就会非常准确；

要找自己的“志同道合”者前提是自己要收藏一定数量的内容，然后以自己的收藏兴趣为条件让系统自动为你查找和你的收藏兴趣最接近的人就行了。

有了这个功能，当你想建一个朋友圈时，当你想认识一些好朋友时，你就可以方便地找到大量的同兴趣的候选者，有效解决互动对象的选择问题。

　　现在的分享手段和途径主要有：

内容订阅（带tag过滤）、人工推荐、Tag标记、RSS输出、JavaScript输出、API调用等，除tag手段外，其它的手段都和内容本身无关，只是提供了一种纯碎的技术手段，而tag方式在前面也说过，仅仅解决了粗粒度的宏观和中观内容过滤，准确性不够。

如果使用上述的宏观语义理解技术，内容分享的准确性就会得到极大提高，基本应用思路是根据每个人的自动收藏兴趣由网站自动为其推荐新文章，实现个性化的自动按需推荐，使大家之间的内容分享活动自动“跑”起来，并彻底解决垃圾推荐的难题。

　　人工智能技术及其应用方式和传统的Web2.0技术及应用方式是很好的补充关系，只有将两者有效地结合在一起才能创造更大的应用价值，才能给网民大众带来更好的应用体验。

目前所知，只有一个叫[360doc个人图书馆]（）的Web2.0网站应用了这项人工智能技术，主要在4个方面进行了应用：

1、自动给文章生成简洁、准确的摘要；

2、自动在文章之间建立基于内容的相关性连接；

3、自动根据个人的收藏兴趣为其推荐新文章；

4、根据自己的收藏兴趣查找“志同道合”者。

上述所说的人工智能主要部分是语义理解这一部分，与这一部分有最大关联的主要是搜索服务的提供商，google的论坛部分在一定程度上正在采用这种思路运作，只是现有的服务提供可能在便利程度上还不能达到，特别是针对中文系统的辐射更加薄弱。

　　目前，有一个比较明朗的方向就是能够提供一个基于兴趣爱好的内容丰富的可定制的平台。

一个以个人主页（博客、微博、facebook等）为基底的可以便捷的寻找到个人兴趣的操作平面，显然在这一点上无论社区还是门户网站的现有结构和操作界面都不能适应这一要求，随身浏览的功能被实际的情况抑制。

同时我们看到个人主页这样比较"

规范"

的界面可以很好的充当操作平面的功能，只是现在个人主页本身结构功能还比较简单，只要针对个人主页现在的界面进行部分改造就可以逐步向这个方面过渡。

　　针对于社区本身具有的优势是论坛栏目分类本身已经对于信息进行了一种分捡，各栏目内部又有一定的分类，这对于内容检索来说具有相当的好处，事实上如楼主所说的图书网站为什么能够比较好的应用这种"

人工智能"

技术的一个主要原因就是"

图书"

行业本身就具有比较好的分类检索系统，这对于语义识别是具有相当帮助的，相当于给语义识别检索加上了一个很好的辅助检索标准，这是具有相当意义的。

2.2因特网上的人工智能教育资源

因特网上丰富的人工智能教育资源为我国高中人工智能教育的开展提供了一个强有力的学习支持。

虽然大多以国外网站居多，但教师若能结合本校实际情况和学生的特点对其合理利用，使之本土化、校本化，无疑能够有效地促进人工智能教育的顺利开展。

课程标准中规定“人工智能初步模块”由3部分内容组成：

知识及其表达，推理与专家系统，人工智能语言与问题求解。

下面将主要围绕这三个主题，列举几个与人工智能教育相关的有代表性的资源网站。

1.人工智能研究者俱乐部

（网址：

这是为人工智能研究者提供的一个适合思想交流，技术切磋和资源互享的虚拟空间，主要由综合讨论、兴趣小组（当前包括机器人制作和语音识别两个方面）、资源共享、分类讨论（针对人工智能的不同组成模块开辟独立的讨论组）和网站联盟几个模块组成。

内容更新快，资源丰富，可为开展人工智能教育的教师和学生提供该领域的实时发展动态和教学参考信息。

2.浙江大学远程教育网络课程《人工智能基础》

（网址http:

//202.205.144.112/）

这是国内教育资源的最大提供者——高等教育出版社，在全国抗击“非典”时期，为了更好地服务于高等学校的教育，向高校师生提供的一门优质的网络教学课程。

它从工程应用的角度系统地介绍了人工智能的基本原理、方法及其应用技术，并全面反映了国内外研究和应用的最新进展。

全课程分三个部分：

绪论，基础篇和提高篇，分别适合不同学习阶段的学生使用。

3.美国人工智能协会

（AmericanAssociationforArtificialIntelligence网址：

http:

//www.aaai.org/）

美国人工智能协会（AAAI）成立于1979年，是个非盈利性的科学社团组织，主要致力于让机器产生智慧思考和智能行为的研究。

此外，提升公众对人工智能的理解，对人工智能实践人员的教学和培训，为人工智能领域的研究者和投资者提供指导等也都是AAAI的实践内容。

AAAI主要活动包括组织和创办研讨会，座谈会和主题论坛；

为所有会员发行季刊杂志，出版著作，会议录和技术报告；

为在人工智能领域作出贡献的会员及有发展潜力的学生授予荣誉和奖学金等。

4.美国计算机协会学生杂志《十字路口》

（ACMCrossroadsStudentMagazin网址：

http:

//www.acm.org/crossroads/）

这是美国计算机协会的第一个电子出版物，主要为学生服务。

读者可以通过不同的索引方式来查找网站内的所有文章和作品，例如，通过作者姓名，出版期号，专栏名称，文章主题，相关图片，专题评论，每周民意调查等。

该网站鼓励世界上所有的学生都能主动参与到这个网站的建设中来,积极担任每期的学生作者、艺术设计，评论员或学生联络员，以共同推动《十字路口》电子杂志的发展。

5.人工智能教育知识库

（AIEducationRepository网址：

//www.cs.cofc.edu/~manaris/ai-education-repository/index.html）

该网站收录了关于人工智能教材、教学大纲和教学设计范例等方面的信息，并且提供了与人工智能相关的教育论文，各主题的在线教程，适合课堂或实验室教学的工具软件和环境，以及方便用户相互交流人工智能教育心得与经验的虚拟空间。

该网站的所有资源通过两种方式来组织，第一种把资源从总体上分类，由人工智能教材信息、人工智能课程教学大纲、适合课堂或实验室教学的人工智能教育工具、其他相关资源四大部分构成。

第二种把资源按照特定主题来分类，包括专家系统，模糊逻辑、知识表示、逻辑与推理、自然语言处理、神经网络、机器人、搜索和博弈、计算机视觉及其他相关主题，每一个主题都由概要、教程、工具和资源四个模块组成。

6.专家系统eXpertise2Go网站

专家系统是人工智能课程的重要组成内容。

高中阶段对专家系统掌握的要求仅限于能演示或使用简单的产生式专家系统软件，以对专家系统有个感性认识；

能使用一个简易的专家系统外壳来自行开发简单的专家系统。

eXpertise2Go是个基于网络的专家系统网站，它提供了多个面向用户基于规则的专家系统实例，诸如，在线“PC产品顾问”，汽车故障自动诊断助理，银行放贷决策助理，数据分析技术助理等。

此外，该网站还提供免费的e2gLite专家系统外壳下载，并且有在线教程，通过介绍专家系统的基本概念，基于规则的推理，对不确定事实的表示和处理及对什么是知识引擎的介绍到引导用户设计并创建自己的知识库，最后利用e2gLite专家系统外壳开发自己的专家系统。

7.人工智能语言VisualProlog学习网站

//www.visual-

VisualProlog是一种功能强大的人工智能逻辑编程语言，由Prolog开发中心设计，至今已发展到6.0版本。

VisualProlog网站更新速度快，资源丰富。

目前该网站提供了由VisualProlog开发的实例演示，VisualProlog个人版的软件下载，在线教程，知识库，常见问题解答等栏目。

2.3人工智能在虚拟克隆人方面的发展

人们花了大量的时间希望可以将人性搬到网络上去，它是对未来发展的一种尝试。

当你不在线的时候，聊天机器人可以自动回答关于你的问题。

说起人工智能就肯定要谈到上个世纪六十年代的第一个虚拟人物Eliza中采用的人工智能技术。

Eliza是麻省理工学院人工智能专家约瑟夫韦珍鲍姆在1966年模仿罗杰斯精神治疗医师而编写的一个文字聊天程序。

如果你对Eliza说：

“我今天感觉有些不舒服。

”那么她很快就会回应你：

“你是否乐意今天感到不舒服？

”对于现代人来说，这个回应显然会立即让对方掉头而去。

然而，使用Eliza软件的许多人都相信或者至少暂时相信他们是在与真人对话。

现在，有一种新服务可以让你自己设置Eliza并训练它，让它模仿你自己的个性。

没有人会误以为它就是你，但是近年推出的MyCyberTwin却可以在你不在的时候帮你做很多事情。

如果你将cybertwin内置到博客、网站或者MySpace档案中，访问者就可以通过会话了解你。

你可以将各种实际资料和个性资料设置到你的cybertwin中。

如果你认为访问者可能会问你“星期六你打算做什么？

”这样的问题时，你可以训练它回答“我打算与朋友一起去看哈里波特，你也一起来吧。

目前MyCyberTwin还是一项免费的服务，它是由澳大利亚悉尼的一家名为RelevanceNow的公司推出的，虽然现在它还处于测试阶段，但是已经拥有1.05万余名用户。

当然，这个概念还是一个全新的概念。

你的cybertwin与Eliza一样，其核心中并没有真正的智能，如果你没有设定好各种问题的回答，它自己是不会回答的。

然而，MyCyberTwin网站还提供了许多扩展工具来帮你预测各种可能的提问，比如人格测试、你对性、政治和宗教的观点等。

那些工具也都是免费的。

RelevanceNow打算通过向会话使用量很大的用户比如商业公司收取会话费的方式来营利，将MyCyberTwin授权给社群网站后，也许以后可以通过它为用户提供有针对性的网络广告。

3.4HCI人机交互

人机交互CHI（ComputerHumanInteraction），国际上也称（HCI，HumanComputerInteraction）是一门跨学科的研究，它的研究内容很广，包括心理学领域的认知科学，心理学；

软件工程领域的系统构架技术；

信息处理领域的语音处理技术和图像处理技术；

人工智能领域的智能控制技术等。

总的来说，人机交互本质上是认知过程，人机交互理论是以认知科学为理论基础；

人机交互系统是一个闭环系统，人机交互研究是以系统科学作为人机交互研究的框架的方法学；

同时，人机交互是以信息技术作为用户界面的技术基础，通过信息系统的建模、形式化描述、整合算法、评估方法以及软件框架等信息技术最终实现和应用人机交互理论。

HCI主要包含五个方面的主题：

人机交互的特性；

计算机的相关性；

人的特性；

计算机系统和界面架构；

系统开发的规范和过程。

第三章语音识别行业概述

3.1语音识别技术的发展史

语音识别的研究工作大约开始于20世纪50年代，当时AT&

TBell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

　　60年代，计算机的应用推动了语音识别的发展。

这时期的重要成果是提出了动态时间规划（DP）和线性预测分析技术（LPC），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。

　　70年代，语音识别领域取得了较大进展。

在理论上，LP技术得到进一步发展，动态时间归正技术（DTW）基本成熟，特别是提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。

在实践上，实现了基于线性预测倒谱和DTW

展开阅读全文