基于Android平台的OCR相机.doc

资源描述

基于Android平台的OCR相机.doc

《基于Android平台的OCR相机.doc》由会员分享，可在线阅读，更多相关《基于Android平台的OCR相机.doc（9页珍藏版）》请在冰豆网上搜索。

基于Android平台的OCR相机.doc

四川大学软件学院

萌芽基金项目申报书

项目名称：

基于Android平台的OCR相机

项目负责人：

张芮

年级：

2012级

学号：

2012141463163

申请日期：

2012-12-16

四川大学软件学院制

二○一二年十二月

一、申请简表

申

请

人

姓名

张芮

性别

男

年级

2012

学号

2012141463163

联系电话

18782093646

邮件

501798619@

课题名称

基于Android平台的OCR相机

课题类别

软件工程

起止年月

2012/12—2013/12

指导教师

专业

职称/职位

研

究

课

题

描

述

摘

要

目前，随着移动平台的迅猛发展，我们的学习、生活由此发生了巨大的变化。

OCR（OpticalCharacterRecognition，光学字符识别）技术在电脑上的应用很成熟。

在移动终端上却无此应用，并且在我们日常生活中迫切需要一款基于移动平台的OCR软件。

由此，我们就可以方便地进行图片编辑，获取我们需要的文字信息。

如果可能的话，我们可以与翻译软件进行结合。

通过对图片上的文字提取，录入翻译软件，就可以方便地进行图片翻译。

无需自己将其手动输入翻译软件，通过手机的照相功能获取图片，进行图片编辑，文字提取。

还有此软件可以进行实时分享到人人、微博、QQ等社交工具上。

如今，社会对于视障朋友的关注度越来越大。

我们这款软件可以给视障朋友带来不少的便利。

我们运用TTS（TextToSpeech，从文字到语音）技术可以将图片中获取的文字进行语音转换。

TTS技术可以帮助有视觉障碍的人阅读图片上的信息，或者只是简单的用来增加文本文档的可读性。

同时我们可以将图片以及通过TTS技术合成的语音进行合成分享到人人、微博、QQ等社交软件上。

因此我们研究的三个主要内容是：

i.开发基于Android平台的OCR相机软件；

ii.TTS技术与OCR技术的整合；名片

iii.软件与其他社交软件的连接

项目参加人员

姓名

学号

联系方式

在本课题中的分工

签名

张芮

2012141463163

18782093646

算法研究、文档撰写

陈明毅

2012141463280

18782069060

架构设计、界面设计

徐子桓

2012141463254

13219023303

算法研究、测试

二、项目立项依据

1.研究意义

I.Android平台被广泛应用

谷歌的Android平台自2010年以来呈现出突飞猛进的发展势头，在全球智能手机市场中所占份额从不到10%一路猛增至50%以上，俨然已经抢占了“半壁江山”。

去年，全球智能手机销量首次超过PC电脑的销量。

“计算设备移动化”的时代即将到来。

在全球手机总销量中，智能手机销量所占的比例也开始迅速增长。

Android已经成为全球智能手机市场的领跑者，截至2012年第一季度的市场份额已超过50%。

因此，这款软件就有广泛的平台，更多人会有机会使用这款软件，给自己带来便捷。

II.基于Android平台的OCR相机可以方便快捷的进行图片文字提取

在日常生活中，我们经常急需从一张图片中提取文字，而现实是我们没有一款软件可以实现从图片拍摄到文字提取的功能。

基于Android平台的OCR相机便可不受地域、空间的限制，进行图片编辑，文字提取。

我们不需要一个扫描仪或照相机进行图片收集，也不需要一台电脑进行文字提取。

我们只需要一部手机便可完成所有要求。

这让我们的生活更为智能，工作更为高效。

III.TTS技术（文字转换为语音）

全球有几千万视障朋友，他们的生活由于生理条件已经缺少了些许色彩。

而基于Android平台的OCR相机人性化的设置了一项功能：

将从图片中提取的文字朗读出来。

对于我们正常人来说也可提高阅读兴趣。

同时，语音与图片的整合可以用于消息的发部（比如：

新闻媒体），并且可以应用于社交软件，这样使我们的交流更为便利。

2.国内外研究动态

ØOCR技术：

OCR（OpticalCharacterRecognition）的概念诞生于1929年，由德国的科学家Tausheck首先提出，并且申请了专利。

几年后，美国科学家Handel也提出了对文字进行识别的想法，但这种梦想直到计算机诞生后才变成为现实。

现在这一技术已经由计算机来实现，OCR的意思也就演变成为利用光学技术对文字和字符进行扫描识别，并将其转化为计算机内码。

根据资料记载，第一个OCR软件是在1957年开发的ERA（ElectricReadingAutomation）。

它是基于窥视孔方法实现的，识别的速度是每秒120个英文字母。

在此以后，世界范围内广泛地进行着OCR技术的研究和开发工作。

从OCR技术的发展历程来看，可分为三个阶段：

第一阶段：

第一代OCR产品出现于60年代初期，NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。

最早的OCR产品应该是IBM公司的IBM1418。

它只能识别印刷体的数字、英文字母及部分符号，并且必须是指定的字体。

60年代末，日立公司和富士通公司也分别研制出各自的OCR产品。

第二阶段：

第二代OCR产品是基于手写体字符的识别，前期只限于手写体数字的识别，从时间上来看，是60年代中期到70年代初期。

IBM公司于1965年便在“纽约世界博览会”上展出了其OCR产品－IBM1287。

第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的，两年后NEC公司也推出了同样的系统。

到1974年，信函的分拣率达到92％～93％，并且广泛地应用在现实生活中，发挥着较好的作用。

第三阶段：

第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别，例如汉字的识别。

最先投入汉字识别研究的日本东芝公司，于1983年发布了其识别印刷体日文汉字的OCR系统－OCR-V595，其识别速度为每秒70～100个汉字，最高识别率达到99.5％。

其后东芝公司又开始了手写体日文汉字识别的研究工作，经过不断改进，针对手写印刷体日文汉字的识别现在已经达到实际应用水平。

我国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究；70年代末开始进行汉字识别的研究；到1986年汉字识别的研究进入一个实质性阶段，取得了较大的成果。

进入信息社会后，计算机已经渗透到人们生活的方方面面，如何将大量的纸制文字信息快速准确地输入到计算机是我国实现信息化的一个技术"瓶颈"，中文OCR系统使中文输入工作高速化、自动化及高准确度，为建立各种信息库提供了基础条件。

我国政府从七五科技攻关计划开始到现在的863计划一直长期支持中文OCR的研发，是中文OCR技术进步的最重要推动力。

从80年代中期开始，国内开始了中文OCR的研究热潮，到90年代中期，国内外共有10多家单位（包括汉王公司、国外的IBM、HP公司）相继推出了各自的中文OCR系统，达到可初步实用化的水平。

从中文OCR技术的发展来看，其研发与应用经历了如下几个阶段：

第一阶段：

刷体单字体识别。

第二阶段：

刷体多字体识别。

第三阶段：

字体大字符集简繁混排、中英文混排识别。

第四阶段：

各种应用系统开始推出，如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。

ØTTS技术：

历史早在17世纪就有法国人研发机械式的说话装置。

直到19世纪，贝尔实验室对于电子语音合成技术的研究，才开启近代语音合成技术的发展。

贝尔实验室在1939年制作出第一个电子语音合成器VODER，是一种利用共振峰原理所制作的合成器。

1960年，瑞典语言学家G.Fant则提出利用线性预测编码技术（LPC）来作为语音合成分析技术，并推动了日后的发展。

后来1980年代MoulinesE和CharpentierF提出新的语音合成算法PSOLA，此技术可以合成比较自然的语音。

（语音合成是将人类语音用人工的方式所产生。

若是将电脑系统用在语音合成上，则称为语音合成器，而语音合成器可以用软/硬件所实现。

文字转语音（Text-To-Speech，TTS）系统则是将一般语言的文字转换为语音，其他的系统可以描绘语言符号的表示方式，就像音标转换至语音一样。

）

TTS是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。

TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。

在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。

TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。

所有声音采用真人普通话为标准发音，实现了120-150个汉字/秒的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。

现在有少部分MP3随身听具有了TTS功能。

3.项目创新点

I.开辟新技术

基于Android平台的OCR相机到目前为止几乎没有人做过类似软件。

此款软件可以实现四大功能：

第一，可以实现图片的剪切，获取自己需要的部分，这样加快处理速度；第二，从图片从提取文字；第三，将所提取的文字转语音；第四，可将自己所做的“作品”进行分享。

II.OCR技术和TTS技术集于一体

如今，我们可以通过聊天软件发送文字、图片以及语音。

但是我们团体想到的是将二者合二为一。

即首先运用OCR技术提取文字，然后用TTS技术将提取的文字转换为语音，最后将它俩“打包”在一起发送出去。

此功能的特点：

图片、语音共存，大大方便了聊天等社交活动。

III.以人为本的理念

目前，视障人士有许多要迫切解决的需求。

例如：

阅读、聊天等。

假如：

一个正常人A与视障朋友B进行聊天，当A在聊天时发现一个有趣的东西C，他将C拍下并发给B。

这样B就知道C为何物了。

同样的当A发现一个有趣的D，他想让周围的朋友知道。

他只要通过此软件的处理便可分享到微博、人人等，不需要自己手动输入描述。

三、研究方案

1.主要研究内容、预期目标

Ø主要研究内容：

I.研究OCR技术原理

首先通过了解PC版的OCR技术原理，然后研读开源的OCR代码，了解其算法。

然后移植到Android平台上，实现OCR的转化。

II.研究Android开发平台环境

这款软件是基于Android的。

因此，Android平台所需要的技术准则、技术要求等我们应该明白什么是Android系统、软件如何满足Android系统要求，知晓其开发环境。

III.探索图片编辑

我们希望通过减小画面大小来加快处理速度，而图片剪切便是途径。

研究图片编辑软件的原代码，明白原理，实现再创新。

IV.TTS技术原理

研究TTS原理，利用TTS开源代码，明白其算法，选择合适方法实现自己所需的功能，并且结合Android系统进行移植转化。

（OCR及TTS核心技术流程）

Ø预期目标（界面以最终成品为准）：

I.开发基于Android平台的OCR相机软件

II.拓展到其他软件，例如：

翻译软件、Office软件、人人、微博等

III.文字语音转换

拍摄完毕后的界面转换成文字后的界面

2.拟采用的技术路线及研究方法

Ø研究方法：

I.查阅相关资料，对

展开阅读全文