基于云计算的大数据挖掘讲座笔记.doc
《基于云计算的大数据挖掘讲座笔记.doc》由会员分享,可在线阅读,更多相关《基于云计算的大数据挖掘讲座笔记.doc(5页珍藏版)》请在冰豆网上搜索。
学术讲座笔记
题目:
基于云计算的大数据挖掘
院(系):
信息与通信学院
专业:
通信工程
学生姓名:
学号:
主讲人:
史忠植
职称:
研究员
2012年10月11日
桂林电子科技大学课程设计(论文)报告用纸第4页共4页
随着信息技术的发展,云计算和大数据成为信息科技最新的亮点,云计算提供数据处理和信息共享的平台,而大数据考虑分析算法和系统的效率。
互联网使得信息成为数据库,搜索引擎从海量语料库中发现知识。
随着互联网、物联网、电视网、电信网、数字家庭等广泛应用与普及,以及生命科学、天文、地理等领域的发展,数据量将达到Terabyte、Petabyte、甚至Exabyte级。
如何快速、准确、实时、方便地从如此庞大的、分散的大数据中获取所需要的知识,是当前面临的重要问题,是科学技术及产业领域研究的前沿课题之一。
1数据挖掘软件的发展
代
特征
数据挖掘
算法
集成
分布计算
模型
数据模型
第一代
作为一个独立的应用
支持一个或者多个算法
独立的系统
单个机器
向量数据
第二代
和数据库以及数据仓库集成
多个算法:
能够挖掘一次不能放进内存的数据
数据管理系统,包括数据库和数据仓库
同质、局部区域的计算机群集
有些系统支持对象,文本和连续的媒体数据
第三代
和预言模型系统集成
多个算法
数据管理和预言模型系统
intranet/extranet网络计算
支持半结构化数据和web数据
第四代
和移动数据/各种计算设备的数据联合
多个算法
数据管理、预言模型、移动系统
移动和各种计算设备
普遍存在的计算模型
1.1第一代数据挖掘软件
特点:
⑴支持一个或少数几个数据挖掘算法;
⑵挖掘向量数据(vector-valueddata);
⑶数据一般一次性调进内存进行处理;
⑷典型的系统如SalfordSystems公司早期的CART系统。
缺陷:
如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
新加坡国立大学。
基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测。
1.2第二代数据挖掘软件
特点:
⑴与数据库管理系统(DBMS)集成;
⑵支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性;
⑶能够挖掘大数据集、以及更复杂的数据集;
⑷通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性;
⑸典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作。
缺陷:
只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发。
1.3第三代数据挖掘软件
特点:
⑴和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中;
⑵由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能;
⑶能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成。
缺陷:
不能支持移动环境。
第三代软件SPSSlementine以PMML的格式提供与预言模型系统的接口。
1.4第四代数据挖掘软件
特点:
⑴目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域;
⑵第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据。
2云计算的特点
云计算具有以下特点:
(1)服务器规模巨大。
“云”具有相当的规模,Google云计算已经拥有上百万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有50多万台服务器。
“云”能赋予用户超强的计算能力。
(2)资源虚拟化。
云计算支持用户在不同地理位置、使用各种终端获取服务。
所请求的资源,是动态且无形的。
应用在“云”中某处运行,但实际上用户不必关系它的具体位置。
(3)可靠性较高。
为了使用云计算更可靠,“云”采用了数据多副本容错等措施来保障其高可靠性的服务。
(4)较强的通用性。
由于在““云”的支撑下可以构造出于变万化的应用,所以,云计算针对的是变化的应用,而对于不同的应用运行可以由同一个“云”支撑。
(5)可扩展性。
尽管应用和用户规模在不断的增长。
“云”的规模也可以通过动态伸缩而满足的这些需要。
(6)按需服务。
云可以象自来水,电,煤气那样计费,因此,用户可以按自已的需要进行购买。
(7)价格低廉。
因为“云”可以由极其廉价的节点来构成,所以“云”无需负担越来越高的数据中心管理成本。
用户在享受“云”的低成本优势的同时。
传统系统的资源利用率也因为“云”得到了提高。
3基于云计算的数据挖掘的优势
用云计算的方式来处理海量数据进行挖掘的优势有以下三个方面:
(1)由于数据挖掘处理的数据足海量的,要从海量的数据中挖掘出理解的知识,大规模的数据挖掘足必须的。
并且随着互联网上数据的快速增长,数据挖掘的任务远比搜索任务要复杂,导致了在挖掘过程中需要有很好的开发环境和应用环境。
这种情况下,基于云计算的方式是比较合适的。
(2)基于云计算实现低成本分布式并行计算环境,因此,企业的数据处理成本大大的降低,同时也不再依存于高性能的机器。
(3)基于云计算的数据挖掘开发方便,屏蔽了底层。
在并行化条件下。
云计算能够利用原有设备提高对大规模数据的处理能力和速度,既保证了容错性,也增加结点。
4基于云计算数据挖掘面临的问题和挑战
云计算技术虽然已经有了很多成功的应用。
但是其技术还不成熟。
云计算还处于初级阶段。
所以,用云计算的方式来处理数据挖掘必然还存在很多的问题与挑战。
这些问题和挑战主要有:
(1)基于云计算数据挖掘算法的并行性存在一些挑战。
用什么样的算法来处理目前的数据挖掘,这是一个首要的问题.并不是所有算法都能够用云计算的方式完成目前的任务,我们需要选择合适的算法。
并采取适当的并行策略,然后才能提高并行效率。
(2)不确定性。
数据挖掘当中有很多不确定性,之所以说数据挖掘,实际上就是要克服不确定性带来的影响。
首先数据挖掘任务的描述具有小确定性,数据采集和预处理也是带有很多的不确定性。
(3)数据挖掘的方法和结果具有不确定性。
什么样的方法和结果是吻合目标的?
还需要在做数据挖掘过程中,把不确定性确定下来。
(4)挖掘结果的评价也是不确定的。
因为每一个用户所关注的最终的挖掘目标不一样,这就导致了对挖掘结果的评价.它也有不确定性。
(5)软件、服务可信方面的问题与挑战。
在云计算环境下实现数据挖掘,就导致了数据挖掘云服务软件的可信性问题变得比较突出。
首先,是服务的正确性。
其次,足服务的安全性。
再次,是服务的质量。
对于上面的问题和挑战,有以下一些对策:
(1)基础建设方面,要建设数据挖掘云服务的平台。
要根据个性化和多样化而谈,在云服务平台上,争业人士可以提供服务,大众和各种组织成为服务的受益方,而且这个平台要按领域、行业来构建。
(2)数据挖掘云服务要依赖于虚拟化技术.需要计算资源,需要自主分配和调度,虚拟化技术足数据挖掘云服务技术的支撑。
(3)需求方面,对个性化、多样化需求,需要大众参与,有了大众的参与个性化和多样化的需求就能够更好的得到满足。
(4)可信性方面。
算法要通用,要可查,可调,可视。
(5)安全方面,隐私数据可以加密来保护,可以有一些安全措施。
史忠植:
中国人工智能领域的开拓者,长期从事计算机科学和智能科学领域的研究工作。
主持完成了多项国家重点科技攻关、国家973、国家863、国家自然科学基金重点等项目,发表著作14部、学术论文450多篇。
曾获国家科技进步二等奖、中国科学院科技进步二等奖、中国科学院科技进步特等奖。
担任世界科技出版社智能科学系列丛书(SeriesonIntelligenceScience)主编,Informatics、InternationalJournalofComputationalIntelligenceSystems、计算机学报、计算机研究与发展等杂志的编委,脑与认知科学国家重点实验室、资源与环境信息系统国家重点实验室学术委员会委员,国际信息处理联合会(IFIP)人工智能技术委员会(TC12)委员、太平洋地区智能体会议指导委员会会员。
曾任中国计算机学会秘书长、中国人工智能学会副理事长,是中国计算机学会会士,中国人工智能学会会士。