大数据导论教案.docx
《大数据导论教案.docx》由会员分享,可在线阅读,更多相关《大数据导论教案.docx(30页珍藏版)》请在冰豆网上搜索。
大数据导论教案
《大数据导论》
教学教案
第1章什么是大数据
课时内容
大数据的概念、发展历程和主要特征
授课时间
45分钟
课时
1
教学目标
þ让学生了解什么是大数据,以及大数据的社会价值体现在人类生活的哪些方面
教学重点
þ了解人类信息文明的发展历程
þ熟悉大数据时代的来临和具体发展表现
þ掌握大数据的主要特征
þ掌握大数据的社会价值
教学难点
þ熟悉大数据的4V特征
教学设计
1、教学思路:
(1)阐释人类信息文明的发展历程及其对人类生活产生的影响;
(2)讲解信息技术主要解决的4个核心问题的具体发展表现;(3)理论阐述了数据生产方式的变革历程,以及各个阶段的具体发展情况;(4)从数据、技术特征两个方面分析大数据的主要特征;(5)大数据的社会价值体现在哪些方面。
2、教学手段:
(1)通过课堂讨论提出问题,活跃课堂气氛并激发学生的学习兴趣;
(2)从系统的角度出发,全面介绍了大数据技术的基础知识,作为大数据技术的基础教材,以提升读者对大数据的认知,每章结束都配有习题,帮助老师进行考查。
教学内容
一、导入新课:
“大数据”的横空出世
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸己经积累到一个开始引发变革的程度。
它不仅使世界充斥着以往更多的信息,而且其增长速度也在加快。
信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。
这个概念几乎应用到所有人类智力与发展的领域中。
“大数据”带来的影响
当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念“大数据”横空出世。
大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。
大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT领域最大的市场机遇之一,其作用堪称是又一次工业革命。
“大数据”产生的背景
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。
大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去。
这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
大量新数据源的出现则导致了非结构化、非结构化数据爆发式的增长。
信息数据的单位由TB、PB、EB,再到ZB的级别,这些由我们创造的信息背后产生的这些数据早己远远超越了目前人力所能处理的范畴。
如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
从三个层面认知“大数据”
大数据(BigData)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
✧第一层面:
理论
理论是认知的必经途径,也是被广泛认同和传播的基线。
从大数据的特征定义理解行业对大数据的整体描绘和定性,从对大数据价值的探讨来深入解析大数据的珍贵所在,洞悉大数据的发展趋势。
从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
✧第二层面:
技术
技术是大数据价值体现的手段和前进的基石。
可以从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
✧第三层面:
实践
实践是大数据的最终价值体现,我们从互联网的大数据,政府的大数据,企业的大数据
个人的大数据四个方面来描绘大数据己经展现的美好景象及即将实现的蓝图。
二、内容大纲:
具体可结合本章的PPT课件进行配合讲解。
1.1人类信息文明的发展
1.2大数据时代的来临
1.2.1信息技术的发展
1.2.2数据产生方式的变革
1.3大数据的主要特征
1.3.1大数据的数据特征
1.3.2大数据的技术特征
1.4大数据的社会价值
三、讨论问题
1-1简述人类信息文明的发展过程并展望未来的发展方向。
1-2大数据的技术特点和技术优势在哪里?
1-3简单描述大数据的主要特征。
1-4结合实际谈谈大数据的社会价值。
思考及作业
一、归纳小结
随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增长,数据样式高度复杂,为人类认识世界,改造世界提供了重要的资源,企业和个人通过网络可以大规模的收集和分析数据,也可以产生和发布数据,个体在互联的网络中既是数据的消费者又是数据的生产者。
大规模生产、分享、应用数据的大数据时代己经来临。
与此同时,数量巨大,种类繁多的数据给传统的数据获取、分析、处理、存储、检索技术带来了挑战,大数据成为广泛关注且急需解决的热点问题,并已经开始影响社会的发展与人们的日常生活。
大数据时代已经来临,各国将在这一新的领域展开新一轮的竞争,我国应当与时俱进,及时转型,适应大数据时代的到来,可以借鉴各国的做法,抓住大数据时代关键点,从国家战略制定、人才培养、基础技术研究、信息安全保障体系建设等方面展开相应的工作。
二、拓展延伸:
(1)大数据时代是在什么背景环境下产生的,它对我们的现实生活产生了哪些方面的影响?
(2)大数据时代的个人隐私如何保护?
(3)结合实际生活,谈一谈大数据的社会价值主要体现在哪些方面。
(4)大数据要解决的核心问题是什么?
第2章大数据技术基础
课时内容
大数据技术基础
授课时间
90分钟
课时
2
教学目标
本章课程在注重大数据时代应用环境前提下,从初学者角度出发,以轻量级理论、丰富的实例对应性地介绍了大数据常用计算模式的各种系统和工具。
将经典和核心的行业技术作为本章的主要内容,讲解计算机操作系统的基本知识,帮助读者建立对大数据技术基础的整体印象。
教学重点
þ掌握计算机操作系统的基础知识
þ理解和掌握编程语言
þ掌握数据库的主要数据类型
þ理解算法的涵义
þ掌握大数据系统
þ熟悉大数据应用开发流程
教学难点
þ理解什么是大数据技术基础
þ熟悉Linux操作系统经历的3个发展阶段
þ熟悉编程语言的发展和种类
þ掌握Python语言自身的优点和在实际应用方面的便捷性
þ了解数据库技术是信息技术的核心技术
þ重点关注传统算法和大数据时代算法的区别
þHadoop平台和Spark平台的基本构成和特征
þ掌握大数据的3种主要数据类型
þ熟悉典型的大数据应用开发流程
þ了解典型的数据科学算法应用流程
教学设计
1、教学思路:
(1)通过本章的学习,使读者掌握计算机操作系统的基本知识,建立对大数据技术基础的整体印象;
(2)介绍Linux操作系统经历的3个主要发展阶段和目前Linux的主要应用场景;(3)回顾编程语言的发展,详细介绍编程语言的种类,并讲解了当前流行的一门编程语言Python语言的特点和优势;(4)简述传统SQL数据库的发展历程,讲解其技术特点;(5)比较NoSQL和NewSQL数据库的技术特色和特点;(6)分别讲述Hadoop和Spark大数据平台的基本构架和工作原理;(7)简述大数据应用开发的一般流程及典型数据科学算法的应用流程。
2、教学手段:
(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;
(2)深入讲解知识点内容,理论与案例相结合,在教学过程中掌握大数据分析的实践操作,通过丰富简单易上手的实例,让学生能够切实体会和掌握各种类型工具的特点和应用。
教学内容
一、导入新课:
大数据行业经过最近几年跨越式的发展,产生了一批与之相关的核心行业技术,我们将其统称为“大数据技术”。
这些经典的、核心的行业技术就是本书的主要内容。
计算机作为促进当代信息技术发展的重要工具,对社会、经济发展的影响越来越显著,越发受到人们的重视,其操作系统也越来越庞大和复杂。
因此,理解计算机操作系统的基础知识是学习并掌握大数据技术知识的前提,熟悉各种操作系统经历的发展阶段对于更好的理解其理论和知识架构奠定了基础。
大数据有几个特性,最著名的是数据量(volume),速度(velocity),多样性(variety)。
除此以外,还有就是准确性(veracity),连通性(valence),和价值(value)。
从操作系统的概念入手,简要分析了操作系统程序和一般的应用程序有什么区别和联系,然后讲解了诞生于网络、成长于网络且成熟于网络的Linux操作系统,并分别讲述其经历的3个发展阶段所具有的特点和目前Linux的主要应用场景。
随着计算机技术的不断发展和完善,编程语言已经得到了长足的发展,并被广泛地应用于实际,已经成为人们与计算机进行深入“交流”的必需工具。
总结介绍了目前市场上所用的主要编程语言种类及其特点,重点讲解编写简单,应用广泛,功能强大和更新速度最快的Python语言。
SQL涵盖数据的查询、操作、定义和控制,是一个综合的、通用的且简单易懂的数据库综合管理语言,同时又是一种高度非过程化的语言,数据库管理者只需要指出做什么而不需要指出怎么做,即可完成对数据库的管理。
SQL可以实现对数据库的全生命周期的全部操作,所以自产生之日起就成了检验关系型数据库管理能力的试金石,并且SQL标准的每一次变更和完善都指导着关系型数据库产品的发展方向,并分述NoSQL数据库、NewSQL数据库的技术特色和特点。
算法(Algorithm)是数学处理的灵魂和核心,也是实现现实事务数学化、公式化和逻辑化处理的桥梁,可以说算法是信息时代连通现实社会和虚拟世界的立交桥。
本章内容重点关注传统算法和大数据时代算法的区别,系统阐述两种算法的本质区别在于数据分析和数据科学。
简要介绍大数据系统目前最为著名和流行的Hadoop平台和Spark平台,分别介绍其主要模块,平台基本特征和典型技术特点等。
随着大数据时代的到来,我们不得不承认如今数据量的激增越来越明显,各种各样的数据铺天盖地的砸下来,企业选择相应工具来存储、分析与处理它们。
那么在大数据时代中,都有哪些数据类型?
结构化数据:
能够用数据或统一的结构加以表示,人们称之为结构化数据,如数字、符号。
传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。
半结构化数据:
所谓半结构化数据,就是介于完全结构化数据(如关系型数据库,面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。
它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
非结构化数据库是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。
现实中,大数据的数据类型渗透在日常生活中的各个方面。
现如今大数据更接近于某个群体行为数据,它是全面的数据、准确的数据、有价值的数据。
这些新类型数据相信大家都很熟悉,它们已经比传统数据类型更深入地走进了我们生活。
1、一些记录是以模拟形式方式存在的,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联网用户,例如音乐、照片、视频、监控录像等影音资料。
现在这些数据不但数据量巨大,并且共享到了互联网上,面对所有互联网用户,其数量之大是前所未有。
2、移动互联网出现后,移动设备的很多传感器收集了大量的用户点击行为数据,它们每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据。
3、电子地图生了大量的数据流数据,这些数据不同于传统数据,传统数据代表一个属性或一个度量值,但是这些地图产生的流数据代表着一种行为、一种习惯,这些流数据经频率分析后会产生。
4、进入了社交网络的年代后,互联网行为主要由用户参与创造,大量的互联网用户创造出海量的社交行为数据,这些数据是过去未曾出现的。
其揭示了人们行为特点和生活习惯。
5、电商户崛起产来了大量网上交易数据,包含支付数据,查询行为,物流运输、购买喜好,点击顺序,评价行为等,其是信息流和资金流数据。
6、传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。
单位存储价格的下降也为存储这些数据提供了经济上的可能。
二、内容大纲:
具体可结合本章的PPT课件进行配合讲解。
2.1计算机操作系统
2.1.1什么是操作系统
2.1.2Linux操作系统
2.2编程语言
2.2.1编程语言的发展与种类
2.2.2Python语言
2.3数据库
2.3.1SQL数据库的发展与成熟
2.3.2NoSQL数据库及其特点
2.3.3NoSQL数据库的分类
2.3.4NewSQL数据库
2.4算法
2.4.1什么是算法
2.4.2大数据时代的算法
2.5大数据系统
2.5.1Hadoop平台
2.5.2Spark平台
2.6大数据的数据类型
2.6.1结构化数据
2.6.2半结构化数据
2.6.3非结构化数据
2.7大数据应用的开发流程
2.8数据科学算法的应用流程
三、讨论问题:
2-1什么是操作系统的核心。
操作系统核心的主要作用有哪些?
2-2Linux操作系统的优势和主要的特点有哪些?
2-3何为静态编程语言,何为动态编程语言?
两者的联系和不同有哪些?
2-4简述传统SQL数据库的发展历程。
2-5SQL数据库的技术特点有哪些?
2-6NoSQL和NewSQL数据库的技术特色和技术特点有哪些?
2-7简述Hadoop和Spark大数据平台的基本构架和工作原理。
2-8简述大数据开发的一般流程。
思考及作业
一、归纳小结:
课堂上注意讲、学、练相结合,注重以学生为主体,积极与学生互动,调动学生的学习主动性和学习兴趣,培养学生发现问题、解决问题的实际能力。
采用任务驱动,问题牵引的方式,提出问题,之后带动学生在教师的讲解下一步步寻找解决方法,再归纳总结出知识点,结合教学课件和实际案例,寻找合适的切入点,以讲授和实例分析为主的形式完成教学,让读者对理论知识的掌握更直接、更快速。
二、拓展延伸:
(1)为什么说操作系统是整个计算机硬件系统的“CEO”?
这个神通广大的操作系统都有哪些“神通”之处?
(2)NoSQL数据库的特点都有哪些?
NoSQL数据库有哪些类型?
(3)什么是算法?
传统的数据算法与大数据时代的数据算法有什么本质区别?
(4)举例说明机器学习具有显著的技术特征和计算特色,以及主要包括的技术优势有哪些。
(5)Hadoop平台的三大组成是什么?
在当前经济、商业、技术领域里有什么适应性优势?
(6)大数据的主要数据类型主要有哪些?
请分别说明其特点和主要应用范围。
第3章数据采集与预处理
课时内容
数据采集与预处理
授课时间
90分钟
课时
2
教学目标
本章详细阐述数据采集与预处理技术,包括大数据的数据采集方法、数据来源、数据预处理技术。
教学重点
þ了解大数据的来源
þ掌握数据的采集方法
þ掌握数据预处理流程
教学难点
þ了解大数据的来源
þ掌握数据的采集方法与数据预处理的主要流程
教学设计
1、教学思路:
(1)从传统商业数据、互联网数据和物联网数据3个主要方面剖析大数据的来源,阐述各种大数据来源的特点;
(2)介绍多款数据采集工具,让读者全面理解和掌握数据的采集方法,讲解数据预处理的基本流程,介绍数据预处理所包含的内容和采用的方法,论述数据预处理在数据挖掘中的重要地位和作用。
2、教学手段:
(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;
(2)深入讲解知识点内容,理论与案例相结合,在教学过程中掌握数据的采集方法和数据预处理技术的目的和流程,通过丰富简单易上手的实例,让学生能够切实理解和掌握数据采集与预处理的相关知识内容。
教学内容
一、导入新课:
随着信息时代的来临,大数据对各行各业都带来了较大的影响。
企业、个人利用大数据,给业务和生活带来了便利,在信息社会中,大多数行业的发展都离不开大数据的支持。
在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题。
大数据的来源非常广泛,如信息管理系统、网络信息系统、物联网系统、科学实验系统等。
本章从以下3个层面阐述了大数据的来源和主要特点。
✧传统商业数据是来自于企业ERP系统、各种POS终端及网上支付系统等业务系统的数据,传统商业是主要的数据来源。
✧互联网数据是指网络空间交互过程中产生的大量数据,包括通信记录及 QQ、微信、微博等社交媒体产生的数据,其数据复杂且难以被利用。
✧物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等节点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。
数据采集技术是数据科学的重要组成部分,已广泛应用于国民经济和国防建设的各个领域,并且随着科学技术的发展,尤其是计算机技术的发展和普及,数据采集技术具有更广泛的发展前景。
大数据的采集技术为大数据处理的关键技术之一。
安排在此章系统讲解数据的采集方法十分必要,能够帮助读者熟悉并掌握系统日志的采集方法、网页数据的采集方法和其他数据的采集方法,使读者快速跨入大数据技术的大门,帮助大数据技术的初学者尽快了解大数据技术。
简要介绍几款采用分布式架构的海量数据采集工具,对Scribe、Chukwa、Flume的基本架构、主要功能和对日志类数据的采集、存储、分析和展示的全套解决方案展开描述,让读者系统理解系统日志的采集方法。
网络数据采集称为“网页抓屏”、“数据挖掘”或“网络收割”,通过“网络爬虫”程序实现。
网络爬虫一般是先“爬”到对应的网页上,再把需要的信息“铲”下来。
网络爬虫采集和处理数据包括采集模块、数据处理模块、数据模块这3个重要模块。
了解爬虫的基本工作流程,并掌握URL抓取策略,我们在实际使用网络爬虫时可根据具体需要选择适合的策略即可。
另外,对企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集。
解决大数据的隐私问题是数据采集技术的重要目标之一。
现阶段的医疗机构数据更多来源于内部,外部的数据没有得到很好的应用。
对外部数据,医疗机构可以考虑借助如XX、阿里、腾讯等公司第三方数据平台解决数据采集难题。
大数据并不在“大”,而在于“有用”,数据质量比数量更为重要,然而数据通常并非完美。
准确、高质量的数据是大数据产生价值的有力保证。
在大数据环境下,数据质量的优劣直接影响数据价值的高低,进而影响人们的分析和决策。
因此,数据预处理是数据挖掘前必不可少的准备工作,是数据挖掘中非常关键的一步。
数据预处理通过对数据格式和内容的调整,使数据更符合挖掘的需要,从而保证数据挖掘的正解性和有效性。
我们首先要弄清什么是影响数据质量的因素,数据质量问题可能发生在大数据处理流程的每一个阶段,尤其是在数据采集和集成阶段最容易出现低质量的数据,从而影响后续的建模分析和挖掘,最终出现错误的分析结果,引起决策失误。
评估数据质量的标准是衡量数据在某一方面的性质,如准确性、完整性、一致性、及时性、可信性、可解释性、重复性、关联性等。
它们反映了数据质量的特性和用户的需求。
列举其中几个比较重要的特性,分别描述它们的含义和用途。
数据预处理的主要流程包括数据清洗、数据集成、数据变换、数据归约等。
经过这些处理步骤,我们可以从大量的数据属性中提取出一部分对目标输出有重要影响的属性,降低源数据的维数,去除噪声等,为数据挖掘算法提供干净、准确且更有针对性的数据,减少挖掘算法的数据处理量,改进数据的质量,提高挖掘效率。
二、内容大纲:
具体可结合本章的PPT课件进行配合讲解。
3.1大数据的来源
3.1.1传统商业数据
3.1.2互联网数据
3.1.3物联网数据
3.2数据的采集方法
3.2.1系统日志的采集方法
3.2.2网页数据的采集方法
3.2.3其他数据的采集方法
3.3数据预处理
3.3.1影响数据质量的因素
3.3.2数据预处理的目的
3.3.3数据预处理的流程
三、讨论问题:
3-1大数据的来源有哪些?
3-2针对不同类型的数据,采用什么样的采集方法?
3-3数据预处理的目的是什么?
3-4数据清洗需要清洗哪些数据,应使用哪些方法?
3-5数据集成过程中需要处理的问题有哪些?
思考及作业
一、归纳小结:
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。
首先给出一个通用化的大数据处理框架,主要分为下面几个方面:
数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。
数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。
在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
读者通过本章的系统学习,课堂上注意讲、学、练相结合,注重以学生为主体,积极与学生互动,调动学生的学习主动性和学习兴趣,培养学生发现问题、解决问题的实际能力。
采用任务驱动,问题牵引的方式,提出问题,之后带动学生在教师的讲解下一步步寻找解决方法,再归纳总结出知识点,结合教学课件和实际案例,寻找合适的切入点,以讲授和实例分析为主的形式完成教学,让读者对理论知识的掌握更直接、更快速。
在掌握了数据采集的方法和数据预处理的技术方法后,才能在庞大而复杂的数据中剔除有残缺的、虚假的、过时的数据,为决策带来高回报,最终获得高质量的分析挖掘结果。
二、拓展延伸:
(1)网页数据的采集工具有哪些?
(2)简述数据预处理的技术的必要性和任务。
第4章大数据存储与管理
课时内容
大数据存储模式与管理应用
授课时间
90分钟
课时
2
教学目标
本章首先讨论数据的存储介质,然后介绍常见的存储模式,以及大数据时代的存储管理系统。
教学重点
þ掌握数据的存储模式
þ理解并掌握大数据时代的存储管理系统
教学难点
þ理解数据存储的概念和种类
þ熟练掌握常用的3种数据存储模式
þ理解分布式平台存储大数据的意义和优势,掌握分布式文件系统基础架构
教学设计
1、教学思路:
(1)介绍早期的存储介质和目前常见的数据存储介质种类及其特点;
(2)简述数据常见的3种存储模式,列举各种存储模式的优缺点和适用场景;(3)在大数据时代,需要进行存储技术的变革,采用分布式平台存储大数据,讲解分布式文件系统的基础架构;(4)描绘数据库家族图谱,讲解数据库的种类和特点,通过数据库提供的多种方式来管理数据库里的数据。
2、教学手段:
(1)通过课堂讨论提出问题,活跃课堂气氛并激发学员的学习兴趣;
(2)深入讲解知识点内容,理论与案例相结合,引入常见的数据存储模式,通过丰富简单易上手的实例,让学生能够切实理解和掌握大数据的存储管理知识。
教学内容
一、导入新课:
在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。
对于企业来说,数据对于战略和业务连续性都十分重要,它是业务文档、计划、用户数据和财务信息的积累,是任何业务基础设施的核心组件。
云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,为充分发挥信息应用价值,有效存储已经成为人们关注的热点。
为了有效应对现实世界中复杂多样性的大