模式识别与大数据.docx
《模式识别与大数据.docx》由会员分享,可在线阅读,更多相关《模式识别与大数据.docx(11页珍藏版)》请在冰豆网上搜索。
模式识别与大数据
模式识别与大数据
学科分类号(二级)
本科学生毕业论文
题 目基于模式识别理论的大数
据集的数据质量分析
姓 名 张洪光
学 号 114090428
院、 系 物电学院电子系
专 业 电子信息科学
指导教师 何文学
职称(学历)教授
企业和互联网企业竞争矛盾加剧,数据成为核心的资本并将深刻影响企业的商业模式,甚至重组其文化和组织。
大数据对企业的作用表现在以下四个方面。
第一,大数据时代将给网络广告市场的发展带来质的飞跃。
大数据时代,众多互联网企业产生了规模庞杂的用户数据,既包括性别、年龄、地域、学历、职业等基本属性,也包括爱好、上网行为轨迹、购物行为习惯、用户间的关联度等深层次的属性。
大数据的价值在于为广告主和代理公司更高效、更准确地锁定目标受众打下了坚实的基础。
第二,互联网企业对海量数据的深入挖掘,有助于加深其对于用户行为、爱好等方面的了解,为用户打造个性化的服务,并针对产品及服务进行优化。
第三,互联网企业通过对大量数据的分析研究,可以实现对市场新需求的及时把握,带来产品、服务乃至商业模式的创新。
第四,面对大数据的浪潮,对于互联网企业而言最为关键的挑战是实现对海量数据的实时监测,并依据监测结果进行实时决策。
(三)大数据对个人的影响
国家对大数据的重视,使得每个人对社会的需求得到了回应,个人对的衣、食、住、行等方面的要求有了及时的响应;企业在大数据时代迎来的挑战和重大转型也影响着个人学习和生活的方向;同时,大众作为国民,也做为消费者的角色也能在国家和企业的发展方向上起着决定性的作用。
二、大数据引发的变革
(一)大数据内涵
(1)大数据的四个主要特征
大数据的4个典型的特征,即所谓的4个“V”,多样性(variety),体量(volume),速度(velocity),价值(value)。
多样性是指,数据类型多,应包含结构性和非结构性的数据,体量是指聚合在一起供分析的数据量必须是非常庞大的,而速度则是指数据处理的速度必须很快,价值体现在价值密度低,商业价值高。
图1:
大数据的四个特征
(2)大数据主要来源
国家数据检测统计中心,企业内部的经营交易信息,物联网世界中的商品、物流信息,互联网世界中人与人交互信息、位置信息等是大数据四个主要来源。
国家统计局,地理信息监测,国家安全信息局等实时获取政治、经济、生活、安全等数据;企业内部包括联机交易和联机分析数据,如阿里巴巴、淘宝等;来自社交网站的数据,如新浪微博、Facebook等的数据。
图2:
大数据来源
(3)大数据赋予我们预测未来的能力——数据分析
数据分析对国家制定发展计划,对企业了解客户需求,把握市场动向。
数据分析,首先是数据质量分析,数据质量包括数据完整性、一致性、准确性、及时性;数据质量分析又涉及到数据采集,处理和应用三个方面。
数据分析的5个层次。
一是可视化分析,直观展示数据,让数据说话;二是数据挖掘算法,给机器看数据;三是语义引擎,解析、提取、分析非结构化数据;四是预测性分析;五是数据质量管理。
(4)数据分析的处理方法——模式识别
模式识别是对表征事物或现象的各种形式的(数值、文字和逻辑关系)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。
通常使用方法为决策理论方法和句法方法。
决策理论方法。
首先将被识别的对象数字化,变换为适用于计算机处理的数字信息,一个模式常需要很大的信息量来表示。
鉴别函数
排除干扰
数字化预处理特征抽取分类分析
决策空间
对象空间
特征空间
图3:
决策理论
鉴别函数:
由特征矢量计算出的相应于各类别的鉴别函数值,通过鉴别函数值进行实体分类。
句法方法也叫结构方法或语言学方法。
其基本思想是把一个模式描述为较简单的子模式的组合,子模式又可描述为更简单的子模式的组合,最终得到一个树形的结构描述,在底层的最简单的子模式称为模式基元。
在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。
一个模式简单的子模式更简单的子模式模式基元
三、大数据的技术发展
(1)大企业的技术战略
大数据是迈向智慧世界的自然演进,用托夫勒《第三次浪潮》一书中的说法,如果说IBM的主机拉开了信息化革命的大幕,那么“大数据”才是第三次浪潮的华丽乐章。
图4:
IBM的布局
图5:
微软的新技术
图6:
甲骨文的角色
(2)大数据具体处理方法
1.Bloomfilter
适用范围:
可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:
位数组+k个独立hash函数。
将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。
同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。
所以一个简单的改进就是countingBloomfilter,用一个counter数组代替位数组,就可以支持删除了。
2.Hashing
适用范围:
快速查找,删除的基本数据结构,通常需要总数据量可以放入内存
基本原理及要点:
hash函数选择,针对字符串,整数,排列,具体相应的hash方法。
碰撞处理,一种是openhashing,也称为拉链法;另一种就是closedhashing,也称开地址法,openedaddressing。
3.堆
适用范围:
海量数据前n大,并且n比较小,堆可以放入内存。
基本原理及要点:
最大堆求前n小,最小堆求前n大。
方法,比如求前n小,我们比较当前元素与最大堆里的最大元素,如果它小于最大元素,则应该替换那个最大元素。
这样最后得到的n个元素就是最小的n个。
适合大数据量,求前n小,n的大小比较小的情况,这样可以扫描一遍即可得到所有的前n元素,效率很高。
4.数据库索引
适用范围:
大数据量的增删改查
基本原理及要点:
利用数据的设计实现方法,对海量数据的增删改查进行处理。
5.外排序
适用范围:
大数据的排序,去重
基本原理及要点:
外排序的归并方法,置换选择败者树原理,最优归并树。
6.trie树
适用范围:
数据量大,重复多,但是数据种类小可以放入内存
基本原理及要点:
实现方式,节点孩子的表示方法。
7.分布式处理mapreduce
适用范围:
数据量大,但是数据种类小可以放入内存
基本原理及要点:
将数据交给不同的机器去处理,数据划分,结果归约。
(3)数据分析的杀手锏
1.模块化EMCAppliance处理多种数据类型
EMC推出了自己的Hadoop软件工具和模块化DCA将支持GreenplumSQL/关系型数据库,Hadoop部署也能在同样的设备上得到支持。
借助Hadoop,EMC能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。
模块化的DCA也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。
2、Hadoop和MapReduce提炼大数据
Hadoop是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的TB甚至PB级别数据)应用。
网络点击和社交媒体分析应用,正在极大地推动应用需求。
Hadoop提供的MapReduce(和其他一些环境)是处理大数据集理想解决方案。
MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
3、惠普Vertica电子商务分析
Vertica是能提供高效数据存储和快速查询的列存储数据库实时分析平台。
相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。
该数据库还支持大规模并行处理(MPP)。
惠普推出的基于x86硬件的HPVertica,通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、Groupon)分析处理的数据达到PB级。
4、IBM提供运维和分析数据仓库
基于DB2的SmartAnalyticSystem是具备高扩展性企业数据仓库的平台,可以支持成千上万的用户和各类应用操作。
比如,呼叫中心通常拥有大量的雇员需要快速回拨客户的历史通话记录。
SmartAnalyticSystem提供了整合信息的DB2数据库,预配置CognosBI软件模块,可以在IBMPowerSystem(RISC或者X86架构)上运行。
Netezza致力于为数字化营销公司、电信、和其他挖掘成百上千TB甚至PB级别数据的公司,提供高可扩展分析应用的解决方案。
IBM的NetezzaTwinFin数据仓库设备,支持大规模并行处理,可以在一天时间内部署完毕。
Netezza支持多种语言和方式进行数据库分析,其中包括Java、C、C++、Python和MapReduce。
与此同时,它还支持如SAS,IBMSPSS使用的矩阵操作方法和R编程语言。
5、Infobright减少DBA工作量和查询时间
Infobright列存储数据库,旨在为数十TB级别数据提供各类分析服务。
而这一块也正是甲骨文和微软SQLServer的核心市场之一。
InfoBright还表示,建立在MySQL基础之上的数据库也提供了另外一种选择,它专门针对分析应用、低成本简化劳动力工作、交付高性能的服务进行设计。
列存储数据库能够自动创建索引,而且无需进行数据分区和DBA调整。
相比传统数据库,它可以减少90%的人工工作量,而且由于其采用高数据压缩,在数据库许可和存储等方面的开支也可以减少一半。
6、Kognitio提供三倍速度和虚拟多维数据集
Lakes能够以低成本、10TB数据存储和每个模块48个运算核心提供大容量存储服务。
电信或金融服务公司,可以使用这种配置来扫描大量的分支结构的各种信息记录。
Rivers则提供了容量和速度之间的平衡,预配置为2.5TB存储容量,它的每个模块拥有48个运算核心。
而追求查询性能的Rapids,其预配置提供有96个运算核心,每个模块仅仅为1.5TB。
该产品方案主要针对金融公司在算法交易或者其他高性能要求方面的需求。
7、微软SQLServer新增PDW功能
微软发布的SQLServerR2ParallelDataWarehouse(PDW,并行数据仓库),一改以往SQLServer部署时间需要花费两年半时间的历史,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。
8、甲骨文讲述EngineeredSystems的故事
engineeredsystem使得甲骨文11g数据库,可以支持基于X86的数据处理和磁盘存储层,其闪存缓存也使得可以实现超快速查询处理。
它既可应用在任意事务环境中,也可以应用在数据仓库(但不能同时进行)。
Exadata的混合柱状压缩能够实现列存储数据库的某些高效率特点,提供高达10:
1的压缩比,而大部分行存储数据库的平均压缩比为4:
1。
SuperCluster事务处理和数据仓库性能相比传统服务器架构能分别带来10倍和50倍速度提升。
9、ParAccel大打列存储、MPP和数据库分析组合拳
ParAccel是ParAccelAnalyticDatabase(PADB)的开发厂商提供快速、选择性查询和列存储数据库,并基于大规模并行处理优势特点的产品。
内置的分析算法可以为分析师提供高级数学运算、数据统计、和数据挖掘等各种功能,同时,它还提供一个开放的API,可以扩展数据库的各种数据处理能力和第三方分析应用。
10、Sybase推进IQ列存储数据库
SybaseIQ15.3能够处理更多数据和更多数据类型,也能胜任更多查询,基于MPP大规模并行处理的PlexQ分布式查询平台,通过将任务分散到网格配置中的多台计算机,加速了高度复杂的查询。
它能提供比现有的IQ部署快12倍的交付能力。
11、1010data提供基于云计算大数据分析
1010data能够提供基于云计算的大数据分析平台。
很大数据库平台供应商提供基于云的沙箱测试和开发环境,但1010data的管理数据库服务,主要针对将整个工作负载迁移到云的全过程。
该服务支持一种提供“丰富而又高级的内置分析功能”,其中包括有预测分析。
其一大卖点是服务包括了数据建模和设计、信息集成和数据转换。
四、总结
大数据可能最终成为决定国家,而不仅仅是企业如何竞争和兴盛的关键因素。
毫无疑问,它们给努力寻找实现更加快速增长的经济体带来一线希望。
通过投资和前瞻性政策,企业领导人以及政府领袖可以充分利用大数据的好处,而不是被其迷惑,不知所措。
而加强对大数据的分析和研究,则为更好预测国家和企业方向的提供有力的依据,因此通过不同的技术改进大数据分析的方法显得尤为重要。
参考文献:
[1]边肇祺,张学工等编著.模式识别(第二版).北京:
清华大学出版社,2000
[2]李介谷,蔡国廉.计算机模式识别技术.上海:
上海交通大学出版社,1986
[3]李弼程,邵美珍等.模式识别原理及应用[M].西安:
西安电子科技大学出版社,2008
[4]王珊等.架构大数据:
挑战、现状与展望.计算机学报,2011