基于语音控制功能的显示器设计本科论文.docx

资源描述

基于语音控制功能的显示器设计本科论文.docx

《基于语音控制功能的显示器设计本科论文.docx》由会员分享，可在线阅读，更多相关《基于语音控制功能的显示器设计本科论文.docx（43页珍藏版）》请在冰豆网上搜索。

基于语音控制功能的显示器设计本科论文.docx

基于语音控制功能的显示器设计本科论文

基于语音控制功能的显示器设计

摘要

语音识别是一门交叉学科，是计算机通过识别把语音信号转换为相应的文本的技术，属于多维模式识别和智能计算机接口的范畴。

语音识别的研究目标是让计算机“听懂”人类口述的语言。

听懂是不仅将口述的语言逐词逐句的转换为相应的书面语言，而且能对口述语音中所包含的要求或询问做出相应的正确的响应，不仅仅拘泥于将所有词都正确的转变为书面文字。

近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。

人们预计，未来10年内，语音识别技术将进入各个领域。

人与人之间的交流手段中，语音是最高效的手段之一，如果能让人与计算机的交流也能达到这样的简单高效，那将会带来极大地便利。

现有的显示器调节方案主要是采用手动调节的方式，通过手动按键输入各种命令，使显示器能按照终端用户的要求进行开关机，信号选择，亮度色彩等调节。

而手动调节的方式在很大程度上浪费用户的时间。

本设计拟采用语音识别处理器和通信模块设计一种语音控制的显示器，给出了单片机的内部结构，系统的硬件组成，分析了语音模块识别的基本原理，其中包括语音输入识别模块、处理模块、主电路模块、显示模块，从软硬件等各个角度详细阐述了语音控制显示器的实现过程。

能够简捷、快速、有效地对显示器进行调节，解放用户双手，使产品更加人性化、智能化的同时也节约了用户的时间。

关键词：

语音识别模块；控制系统；转换系统；

TheDesignofDisplayBasedonVoiceControl

Abstract

Speechrecognitionisacrossdiscipline,it’sacomputertechnologybyidentifyingthetextofthespeechsignalwhichconvertedtothecorresponding,belongstothecategoryofthemulti-dimensionalpatternrecognitionandintelligentcomputerinterface.Speechrecognitionresearchgoalistoletthecomputer\"understand\"humanorallanguage.Understanditisnotonlyorallanguage,wordforwordisconvertedtothecorrespondingwrittenlanguage,butalsototheoralspeechcontainedintherequestorenquiryaccordinglythecorrectresponse,notjustlimitedtoallwordsrightintothewrittenword.Overthepasttwentyyears,speechrecognitiontechnologyhasmadesignificantprogress,startfromthelabtomarket.Isexpected,thenext10years,speechrecognitiontechnologywillentereachdomain.

Amongthemeansofcommunicationbetweenpeople,voiceisoneofthemostefficientmeans,ifitcanmakepeoplecommunicatewiththecomputercanachievesuchasimpleandefficient,itwillbringgreatconvenience.Adjusttheexistingdisplayadjustmentschemeismainlybymanualadjustmentoftheway,byamanualbuttoninputcommands,thedisplayinaccordancewiththerequirementsofuserterminalswitch,signalselection,brightnessandcolor.Manuallyadjustthewaytoalargeextentawasteofuser'stime.

ThistopicproposedUSESspeechrecognitionprocessorandcommunicationmoduledesignakindofvoicecontroldisplay,Theinternalstructureofsinglechipmicrocomputerisgiven,thesystemhardwarecomposition,analyzesthebasicprincipleofspeechrecognitionmodule,includingspeechinputrecognitionmodule,processingmodule,maincircuitmodule,displaymodule,fromthepointofviewofsoftwareandhardwareandsooneachdetailtheimplementationprocessofvoicecontroldisplay.Cansimply,quicklyandeffectivelytoadjustthedisplay,theliberationoftheuser'shands,maketheproductmorehuman,intelligentbutalsosavesthetimeoftheuser.

Keywords：

Speechrecognitionmodule;Controlsystem;Transformationsystem;

插图清单

引言

语音识别作为信息技术中一种人机接口的关键技术，具有重要的研究意义和广泛的应用价值。

介绍了语音识别技术发展的历程，具体阐述了语音识别概念、基本原理、声学建模方法等基本知识，并对语音识别技术在各领域的应用作了简要介绍。

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式，语音是语言的声学表现，与机器进行语音交流是人类一直以来的梦想。

随着计算机技术的飞速发展，语音识别技术也取得突破性的成就，人与机器用自然语言进行对话的梦想逐步接近实现。

语音识别技术的应用范围极为广泛，不仅涉及到日常生活的方方面面，在军事领域也发挥着极其重要的作用。

它是信息社会朝着智能化和自动化发展的关键技术，使人们对信息的处理和获取更加便捷，从而提高人们的工作效率。

近年来，随着语音识别与确认技术的逐渐成熟，基于语音识别技术的对话控制系统受到了越来越多的关注。

随着科学技术以及经济的发展，人类越来越希望解放自己的双手，这就涉及到语音控制及其识别技术。

随着社会发展，人们渴望更加人性化和谐化交流，传统人机交流工具键盘显示器等越来越不能满足人们的要求，严重影响了人们的工作质量和工作效率，因此，研究工作者提出了一种全新解决方案，即语音识别技术。

语音是人类最常用和最重要的交流工具之一，语音识别技术就是让机器能识别人类语音并执行相关语音命令，使机器具有听力和语言表达能力，从而实现人机更高层次的交流语言是人类特有的功能，是人与人之间相互交流的重要方式。

从计算机出现的那一刻，人们就希望能够用语言与机器交流，相互传递信息。

随着现代科技的不断进步，语音接收与处理方面的技术及应用受到了人们的广泛关注，拥有广阔的应用前景。

目前，在我们日常生活的很多领域已经实现了利用语音进行人机交互的功能。

第1章绪论

1.1语音控制系统的背景与发展

语音识别技术起始于20世纪50年代。

这一时期，语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代，语音识别研究取得实质性进展。

线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题，并通过语音信号的线性预测编码，有效地解决了语音信号的特征提取。

20世纪70年代，语音识别技术取得突破性进展。

基于动态规划的动态时间规整（DynamicTimeWarping，DTW）技术基本成熟，特别提出了矢量（Vector Quantization，VQ）和隐马尔可夫模型（HiddenMarkov Model，HMM）理论。

20世纪80年代，语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别，识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。

在声学模型方面，由于HMM能够很好的描述语音时变性和平稳性，开始被广泛应用于大词汇量连续语音识别（LargeVocabularyContinousSpeechRecognition）的声学建模；在语言模型方面，以N元文法为代表的统计语言模型开始广泛应用于语音识别系统。

在这一阶段，基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统，语音识别技术取得新突破。

20世纪90年代以后，伴随着语音识别系统走向实用化，语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展。

同时，人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题。

此外，语音识别技术开始与其他领域相关技术进行结合，以提高识别的准确率，便于实现语音识别技术的产品化。

目前，全球语音技术市场规模超过30亿美元，近年来年增长率保持在25%以上，未来语音识别市场被看好，其中电信行业（VoIP等），移动应用领域（手机、学习机、平板电脑、车载系统等移动设备），都会呈现出爆发式增长。

近20年来，语音识别技术取得了显著的进步，开始从实验室走向市场。

有人预计，不出十年，语音识别、控制技术将进入家电、汽车电子、通讯、家庭服务等各行各业。

语音识别控制系统有着广泛的应用领域，主要包括以下几个方面:

（1）控制系统

包含好多内容。

比如说生产前线上的复杂控制面板，密密麻麻、许多许多的按钮如今只要一个麦克风就能代替，甚至都不用动手就能完成所有操作；还有高温高危操作区间，人们不易于接近实施操作，用语音指令就可以避免不必要的潜在的危险；汽车飞机上装的语音控制系统也是这样，只需输入语音指令，汽车飞机就按照你预定的方向行驶，理想状态下驾驶员甚至可以在里面小憩片刻。

本设计的语音控制显示器就是一个很好的应用实例。

（2）查询、反馈系统

查询是语音识别的另一个重要的应用，现代社会是个信息化的社会，信息查询也就日益显得重要，查询到的信息在一定程度上也是对信息的一个反馈，有了语音识别、控制系统，就不需要人们按各种按键了，想要什么信息，直接告诉系统就好了，系统会自动识别您的语音信号，然后为您提供相应的信息。

这样的信息来的多快，查询方式多么灵活，操作多么简便。

（3）人机互动

最早的人机互动并不是什么人机互动，只是应用在玩具中，使得玩具能发出几种声音，到后来就是可以和人进行简单的交流，这必然使得玩具更加吸引人。

但是这里所说的简单交流并不是像电影里面那样能够多么多么智能化，甚至有了自己的思想，这里是简单交流只是用户输入语音信号，设备进行相应的应答操作。

与自然语音交流还有相当大的距离，后者不仅要求语音识别技术更加完善和发展，还与人工智能的发展密切相关，这里只是做到简单的人机互动而已。

1.2语音控制系统的意义

人与人之间的交流手段中，语音是最高效的手段之一，如果能让人与计算机的交流也能达到这样的简单高效，那将会带来极大地便利。

而手动调节的方式在很大程度上浪费用户的时间。

语音识别的研究工作对于信息化社会的发展，人们生活水平的提高等方面有着深远的意义。

随着计算机信息技术的不断发展，语音识别技术将取得更多重大突破，语音识别系统的研究将会更加深入，有着更加广阔的发展空间。

语音控制具有操作简单（如同与人对话一般）、命令丰富（只要建立可靠性高的模板，几乎任何命令都能运用）、稳定可靠（不会老化失灵）等优点，具有非常巨大的应用前景和应用价值。

普通的控制器都是使用按键控制或者使用触摸屏控制，这种方法虽然使用起来比较简单，技术也比较成熟，但是由于它们始终属于“物理”控制，就不可避免的会有按键以及屏幕的老化失灵的问题，寿命一般只有那么三四年，频繁使用的话寿命会更短。

1.3本设计研究的主要内容

人与人之间的交流手段中，语音是最高效的手段之一，如果能让人与计算机的交流也能达到这样的简单高效，那将会带来极大地便利。

而手动调节的方式在很大程度上浪费用户的时间。

本设计拟采用语音识别处理器和通信模块设计一种语音控制的显示器，能够简捷、快速、有效地对显示器进行调节，解放用户双手，使产品更加人性化、智能化的同时也节约了用户的时间。

第2章　系统总体设计

2.1设计方案

本设计主要介绍用Flash单片机AT89C51和录放时间达60s的数码语音芯片LD3320设计的一套智能语音录放系统。

图2-1方案原理框图

这一方案的特点：

能进行语音控制，不用手动输入信号指令，解放了用户的双手，在显示器上显示出来，进行开关机，信号选择，亮度色彩等调节。

还可以修改指令，而且修改语音方便；修改录音内容时，可以通过更改软件程序，从其中任意一段开始修改指令。

还有语音反馈，提供给用户系统的状态，让用户能更简洁便利的操作控制系统。

LD3320芯片的音频模拟管脚连接相应的电容/电阻后通过排针引出。

M-LD3320模块上设计有2个音频插座，直接引出MIC输入和Speak输出信号。

用户可以用一个带麦克风的耳机验证语音识别和声音播放，十分方便。

M-LD3320模块上没有电源芯片，相应的电源管脚由排针引出，由开发者连接入3.3v电源输入。

M-LD3320模块上的CLK输入可以选择如下任意一种:

（1）直接将晶振信号通过排针输入到LD3320的相应管脚。

（2）或者用户可以自行焊接晶振，在模块上预留晶振的空间和连接点[3]。

M-LD3320模块上有两个LED灯，连接到LD3320芯片的29,30管脚上，在LD3320上电重启复位（RSTB*）并稳定工作后，29,30管脚会稳定输出低电平，因此这两个LED灯可以作为芯片上电指示。

方案设计：

方案中采用了一片LD3320语音芯片（如图3-2所示），LD3320是一颗基于非特定人语音识别（SI-ASR：

Speaker-IndependentAutomaticSpeechRecognition）技术的语音识别/声控芯片。

提供了真正的单芯片语音识别解决方案。

LD3320芯片上集成了高精度的A/D和D/A接口，不再需要外接辅助的Flash和RAM，即可以实现语音识别/声控/人机对话功能。

并且，识别的关键词语列表是可以动态编辑的。

自动控制是单片机应用的一个重要领域，在自动控制领域中，除数字量之外经常会遇到一种物理量，即模拟量，而声音就是一种模拟量由于单片机只能处理数字量的转换，因此计算机系统中凡遇到有模拟量的地方，就需要进行模拟量向数字量或数字量向模拟量转换，伴随而来的就出现了单片机的A/DD/A转换的接口问题，虽然这些接口都已集成化，体积小，功耗低，并能方便地与单片机连接，但在转换之后仍然有一定程度的误差，特别是对语音的转换，有明显的失真因此，使语音能得到更好的还原是方案选择的最终出发点。

2.2语音识别技术的基本原理

语音识别系统基本原理框图如下图所示，其中：

预处理模块滤除原始语音信号中的次要信息及背景噪音等，包括抗混叠滤波、预加重、模／数转换、自动增益控制等处理过程，将语音信号数字化；特征提取模块对语音的声学参数进行分析后提取出语音特征参数，形成特征矢量序列。

语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。

特征提取和选择是构建系统的关键，对识别效果极为重要。

图2-2语音识别系统基本框图

2.3语音识别的类型

语音识别按不同的角度有以下几种分类方法。

（1）以识别单位分

语音识别以识别单位分，有孤立词识别、音素识别、音节识别、孤立句识别、连接词识别、连续语音识别和语音理解。

语音理解是在语音识别的基础上，用语音学知识来推断语音的含义，它是更高一级的语音识别。

目前已进入实用的语音识别系统是孤立词语音识别，以几百限定单词为识别对象，并且已有较为成熟的产品。

连接词识别和连续语音识别是指小词汇量、连续语音的一种识别技术，发音方式是连续方式。

连接语音识别技术，最简单的情况是在识别阶段将孤立词的参考模式拼接起来，再与输入语音的特征矢量序列进行匹配，有时使用从连续语音中切割出的语音数据参与训练孤立词参考模式。

在连接语音识别中，如果能够得到基元间的概率或语法关系，则可利用它来提高系统性能。

例如，将连接数字识别系统用于电话拨号，那么在某地区中不同号码的出现频率及各位数字的出现频率是有一定关系的，这些都可以得到有效利用。

（2）以识别规模分

语音识别以识别规模分，有小词汇（10-50个）、中词汇（50-200个）、大词汇（200以上）等孤立词识别。

在所有情况下，语音识别的识别率都随单词量的增加而下降。

由于词条越多，潜在的词间相似性就会增加，分辨越困难，因此随着词条数增加，系统的搜索运算开销及存储开销就增加。

当然，词表不是识别率的决定因素，因为识别率与词之间的混淆程度及发音方式都有关系，但词表的大小却影响着识别策略的选择。

例如，对于小词表特定任务的系统，可采用孤立词或连接词识别策略。

当词表大到一定程度，由于存储模板所需存储的增加，特别是对训练数据要求的增加，一般要选择较小的声学单元如半音节、音素等作为基本识别单元，此时往往必须采用连续语音识别策略，那么声学模型、搜索算法、语音模型就成为不得不细致研究的问题了。

（3）以服务对象分

语音识别以服务对象分，有特定讲话人、多讲话人（有限的讲话人）和与讲话人无关（无限的说话人，也就是无论是谁的声音都能识别）3种。

特定讲话人的语音识别较简单，能得到较高的识别率。

目前商品化的设备多属此种。

后两种为非特定说话人识别系统。

这种识别系统通用性好、应用面广，但难度也较大，不容易得到高的识别率。

而与讲话人无关的识别系统的实用化将会有很高的经济价值和深远的社会意义。

一个特定人的语音识别系统需要事先采集使用者的许多语音样本对系统进行训练，才能方便地应用。

每一个使用者都必须建立自己专用的参考模式库。

非特定人语音识别系统原则上是事先由许多人（通常30~40人）语音样本训练好系统，使用者无论是否参加过采样训练都可以共用一套参考模式，使用该系统进行语音识别。

（4）以识别方法分

语音识别以识别方法分，有模板匹配法、随机模型法和概率语法分析法。

这三种方法都属于统计模式识别法。

目前，语音识别的研究重点已经转移到大词汇量、非特定人、连续语音上来，并且已经取得很大的突破。

典型的做法是：

以HMM为统一框架，构筑识别系统模型。

每个基本识别单位至少建立一套HMM结构和参数。

2.4语音识别的基本算法

语音识别方法主要有动态时间归正技术（DTW）、矢量量化技术（VQ）、隐马尔可夫模型（HMM）、基于段长分布的非齐次隐含马尔可夫模型（DurationDistri—butionBasedHiddenMarkovMode1．DDBHMM）l引和人工神经元网络（ANN）。

（1）DTW和VQ

DTW是较早的一种模式匹配和模型训练技术。

它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题。

在孤立词语音识别中获得了良好性能但因其不适合连续语音大词汇量语音识别系统。

目前已被HMM模型和ANN代替V0技术从训练语音提取特征矢量，得到特征矢量集。

通过LBG算法生成码本。

在识别时从测试语音提取特征矢量序列。

把它们与各个码本进行匹配，计算各自的平均量化误差。

选择平均量化误差最小的码本。

作为被识别的语音。

但同样只适用孤立词而不合连续语音大词汇量语音识别。

（2）HMM模型

HMM模型是语音信号时变特征的有参表示法，是一种描述随机过程特性的概率模型。

HMM的基本理论最早出现在20世纪60年代末和70年代初Baum等人的论文中，并由CMU公司和IBM公司将其成功地应用于语音处理中。

从20世纪80年代中期开始，随着Bell实验室对其理论进行了系统而深入的介绍之后，HMM逐渐成为语音处理领域的重要理论基础之一，并在语音处理的各个领域中得到十分广泛的应用。

它由相互关联的两个随机过程共同描述信号的统计特性。

其中一个是隐蔽的（不可观测的）具有有限状态的Markov链。

另一个是与Markov链的每一状态相关联的观察矢量的随机过程（可观测的）隐蔽MarkOV链的特征要靠可观测到的信号特征揭示。

这样．语音时变信号某一段的特征就由对应状态观察符号的随机过程描述。

而信号随时间的变化由隐蔽Markov链的转移概率描述，模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。

按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称DHMM）和连续隐马尔可夫模型（采用连续概率密度函数．简称CHMM）以及半连续隐马尔可夫模型（SCHMM）。

一般来讲，在训练数据足够的情况下．CHMM优于DHMM和SCHMM。

HMM模型统一了语音识别中声学层和语音学层的算法结构．以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起，极大地增强了连续语音识别的效果。

LD3320是一颗基于非特定人语音识别（SI-ASR：

Speaker-IndependentAutomaticSpeechRecognition）技术的语音识别/声控芯片。

提供了真正的单芯片语音识别解决方案。

第3章硬件设计

由第二章的总体方案的介绍，可以得到整个系统的各个模块。

本章主要描述整个系统中设计到的硬件模块以及各个模块的集体实现原理和电路的设计，并且对各个模块进行了介绍。

3.1AT89C52的主要特点概述

3.1.1AT89C52单片机功能介绍

AT89C52是一个低电压，高性能CMOS 8位单片机，片内含8kbytes的可反复擦写的Flash只读程序存储器和256bytes的随机存取数据存储器（RAM），器件采用ATMEL公司的高密度、非易失性存储技术生产，兼容标准MCS-51指令系统，片内置通用8位中央处理器和Flash存储单元，AT89C52单片机在电子行业中有着广泛的应用。

AT89C52有40个引脚，32个外部双向输入/输出（I/O）端口，同时内含2个外中断口，3个16位可编程定时计数器,2个全双工串行通信口，2个读写口线，AT89C52可以按照常规方法进行编程，也可以在线编程。

其将通用的微处理器和Fla

展开阅读全文