大大数据教学实验室方案设计Word文件下载.docx
《大大数据教学实验室方案设计Word文件下载.docx》由会员分享,可在线阅读,更多相关《大大数据教学实验室方案设计Word文件下载.docx(165页珍藏版)》请在冰豆网上搜索。
大数据即服务<
BigDataasaServices–BDaaS>
旨在为用户提供简单部署在"
云计算〞架构之上的Hadoop集群的能力,并且部署数据处理框架,如:
Hadoop,Spark,Yarn,Strom等.通过简单的配置:
比如Hadoop版本、集群结构、节点硬件信息等——在用户提供了这些参数后,BDaaS能够迅速的把大数据集群机构部署起来.同时也支持集群的扩容和减容.以Hadoop应用为代表的大数据分析,是最适合在云上运行的业务之一.也正因为如此,AWS、OracleCloud、WindowsAzure、阿里云等知名"
公有云〞上都推出了相关服务.同时,高等院校采用Hadoop分布式大数据"
云计算〞架构,将是一个先进的融合两大热门技术的理想选择.大数据与"
云计算〞的结合是一个值得关注的方向.毋庸置疑,"
云计算〞和大数据目前都位列IT领域中最受瞩目的方向之中,而二者的结合如此更是不可回避的话题.在这种情况下,BDaaS作为一个典型的、开源的大数据与"
云计算〞结合方案,必然是值得关注的.特别是,如果希望对这个方向有一个清晰直观的、技术层面上的认识,BDaaS如此更是一个可以重点分析学习的对象.
1大数据根底关键技术
大数据时代面临的新挑战,包括大数据集成〔数据异构性和数据质量问题〕、大数据分析〔数据形式多样化、数据处理的实时性、索引结构的复杂性等〕、大数据隐私问题〔隐私保护和数据分析的矛盾〕、大数据能耗问题〔低功耗硬件的设计〕、大数据处理与硬件的协同、大数据管理易用性问题以与性能测试基准.
1大数据存储和管理技术
如何把采集到的大数据存储起来,建立相应的数据库,并进展管理和调用.主要容包括:
分布式文件系统〔HDFS〕、去冗余与高效低本钱的大数据存储技术、新型数据库技术〔键值数据库,列式存数据库、图存数据库以与文档数据库等〕、异构数据融合技术、分布式非关系型大数据管理与处理技术、大数据索引技术和大数据移动、备份、复制等技术.
1大数据分析与挖掘技术
从大量数据中寻找其规律的技术,通常由数据准备、规律寻找和规律表示3个阶段组成.数据准备是从上述大数据中心存储的数据中选取所需数据并整合成用于数据挖掘的数据集;
规律寻找是用某种方法将数据集所含规律找出来;
规律表示如此是尽可能以用户可理解的方式〔如可视化〕将找出的规律表示出来.根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规如此发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等.
1多媒体与非结构化数据管理与分析
大数据不单单意味这数据量发生了巨量提升,更重要的在于数据类型以与可用于业务分析的数据格式也在不断丰富.新的数据类型也正在对传统数据源和熟悉的商务智能活动进展补充.例如,网络日志文件可跟踪访问者的运动,这将揭示何人、何时、在何处、访问了该.这种数据可揭示人们与您的交互情况.社交媒体有助于您了解人们想些什么或者他们对某些事情的感觉.数据可来源于网页、社交媒体、微博、博客、"
微信〞的朋友圈、电子交流、搜索索引、点击流、设备传感器和所有类型的多媒体文件〔包括音频、视频和摄影〕.随着计算机网络,分布式计算的开展,对多媒体信息进展高效的管理,存取,查询已经成了一种迫切需求.数据科学与大数据人才所采用的数据分析资源不单包括传统的数据源,同时应该有能力将数据库的可靠性、可用性和数据管理扩展到了传统、互联网、电子商务和多媒体应用程序中的多媒体容.除存储和检索大图像外,还了解如何提取图像属性,包括以如下图像的高度、宽度和压缩格式:
这些图像包含的像素高达二十亿,或者分辨率高达46000x46000.
二、数据科学与大数据专业支撑平台
2.1企业级大数据工程实践系统环境
大数据工程实践系统环境,是面向国高等院校大数据学科与研究院建设,本科与工程硕士实习教学,与教师与科研项目团队开发等多种应用场景,专门为高校教师与学生定制化开发,基于企业真实的大数据业务开发环境全面仿真,匹配至高校教学与科研应用场景的整体系统环境.借助"
云计算〞平台的优势,工程实践系统环境之间相互独立应用,以虚拟机文件格式交付,可供大数据专业学生、项目开发小组,与科研开发团队,分别完成大数据学习与端到端的项目开发全生命周期的实验操作,工程实践与项目开发.
基于大数据业务的行业最优实践经验,将满足大数据端到端的业务流程的核心平台在大数据工程实践系统环境部,包括:
大数据根底平台,高级分析与R语言平台,大数据可视化探索平台.采用统一的集成化系统,满足高等院校面向多学科,多学院,包括:
计算机学院,软件学院,商学院,管理学院,梳理学院的大数据专业设计需求,并满足多种项目科研方向的需求.
对应相关课程模块教学与实验需求,预装包含:
系统环境,功能连接中间件,应用数据库,SQL大数据数据库,NoSQL数据库,教学与科研用示例数据资源,以与面向专业类开发,管理,调优等功能组件与应用软件,满足相关教学与实验所需的应用场景.大数据工程实践系统环境保持每年随技术升级至少三次整体更新,提供未来3年系统与组件升级服务,含:
ORACLE操作系统,数据库,软件;
课程体系与教材,实验,项目案例,源代码,教学用数据案例等教学资源.最新版本的大数据工程实践系统环境包含软件与版本包括:
开源|商用|性能中间件
◆Linux6.7-支持开源
◆OracleDatabase12cRelease1EnterpriseEdition<
12.1.0.2>
⏹OracleBigDataSQL-enabledexternaltables,
⏹OracleMultitenant,
⏹OracleAdvancedAnalytics,
⏹OracleOLAP,
⏹OraclePartitioning,
⏹OracleSpatialandGraph,
◆ClouderaDistributionincludingApacheHadoop<
CDH5.5.1>
-开源
◆ClouderaManager<
5.5.1>
-支持开源
◆OracleDataIntegrator12c
◆RAdvancedAnalyticsforHadoop2.5.1-支持开源
◆NoSQLDatabaseEnterpriseEdition12cR1<
3.5.2>
-支持迁移
◆JDeveloper12c<
12.1.3>
◆SQLDeveloperandDataModeler4.1.3withOracleRESTDataServices3.0.3-支持SQL代码开源
◆OracleDataIntegrator12cR1<
12.2.1>
◆OracleGoldenGate12cR2<
12.2.0.1>
◆RDistribution3.2.0-支持开源
可以发现,大数据工程实践系统环境保持着开放的态度,为高校架设了一个面向开源生态圈的统一平台,仅仅保存传统数据库12c与性能优化相关组件.同时,在大数据工程实践系统环境中安装一站式的系统服务管理平台,用户与管理员均可以通过直观的管理界面,根据课程与科研项目需求启动或者关闭特定服务,以匹配实际需求:
2.2开放的商用与开源组件共享平台
开源共享必然是科研与技术开展的潮流,大数据工程实践系统环境本身,基于ORACLE开源Linux发行版部署,借助灵活开放的系统接口,高校师生可以自由灵活的在系统平台上加载其他商用与开源软件.
大数据工程实践系统环境中,不单提供了基于ORACLE核心技术的ORACLE数据库12c,大数据SQL,大数据发现数据可视化探索平台〔ORACLEBigDataDiscovery〕,高级数据挖掘分析套件;
同时,还提供了全球最大的大数据企业解决方案公司Cloudera的开源大数据开源套件:
ClouderaDistributionofHadoop<
CDH>
.在高校科研环境中,科研项目小组完全可以通过调用基于开源平台的大数据开发环境与完整的Apache开源项目,实现独立与灵活自主的项目开发与科研探索,组件包括:
2.3基于智慧教育云的实践教学平台
2总体架构
基于智慧教育云的实践教学平台依托于云计算、虚拟化以与大数据技术,将分散的IT软硬件资源与教学资源整合在一起,通过统一的教学平台,向用户提供各种服务,其总体架构如以下图.
总体架构按照云计算的服务模式划分,可以分为三个层次.
最底层IaaS是有机地整合在一起的IT资源,包括计算资源、网络资源和存储资源.统一的云计算管理平台将这些资源进展虚拟化管理,向上提供根底服务,包括分布式数据存储与计算服务、负载管理、数据备份等.这一层使用服务器虚拟化技术,将分布式计算资源进展整合,达到统一管理和使用的目的.
中间的PaaS层为云平台业务调度中心,包括统一身份认证管理、各种教学业务引擎、各种教学应用服务器、教学资源管理、数据统计和分析功能等.这一层使用虚拟化技术将各种实践环境需要的实验工具、业务与管理支持工具、实践教学管理工具等有机地整合在一起,对上一层应用进展按需分配.
SaaS包含了向最终用户提供的各种服务以与各种调用方式.一种方式为一般桌面应用,提供根底的桌面环境和办公、实验工具.另外一种方式为通过教学平台,将课程资源和课程需要的专业实践环境进展打包整合来为用户进展服务.调用资源的终端可以为PC、笔记本电脑、各种云终端和平板电脑.
总体架构从组成形式来看,主要如如下图所示.
在最底层,是整个智慧教育云的根底架构,包含服务器、存储设备、网络安全等软硬件设备.在此根底上,有一个虚拟桌面云,将根底软硬件设备整合为各种业务场景资源、计算资源、存储资源、网络资源等.根据生产实践型教学体系,将企业真实案例等资源分解整合为生产实践型教学资源库,并通过虚拟桌面云来提供虚拟化实训环境.通过教学云平台,对教学资源、实训环境进展统一管理,组织实施教学过程、教学活动.通过教学资源库与教学云平台的融合,提供各种应用场景,以开展教学模式创新、实训实验室建设、在线考试以与其他各种应用.
虚拟桌面云
虚拟桌面云是采用全球领先的服务器虚拟化、用户桌面虚拟化、云存储、云安全、云管理技术,自主研发的一项云计算应用实例.虚拟桌面云利用云计算技术在高校数据中心搭建一个服务器集群,通过创建多个虚拟机来提供远程虚拟桌面;
以"
虚拟机〞和"
虚拟桌面〞的形式向用户提供所需的计算、存储和应用程序等个性化容.用户不再需要使用传统PC终端,而是通过多种精简且便捷的云终端设备通过网络访问远程虚拟桌面的形式获得属于自己的计算与存储能力、个性化的应用与数据容,实现与PC一致的使用体验.
虚拟桌面云解决了传统PC构架下,数据分散、安全性低、部署复杂、维护工作量大、难于管理、能耗巨大、资源浪费等问题,实现了数据高安全性、用户高便利性、系统易管理性、桌面高可用性与综合本钱最低化等特征.
〔1〕数据高安全
在虚拟桌面云架构下,任何用户数据的处理和存储,都是在服务器端进展处理和完成的,同时,用户的数据和桌面环境保存在专门的后台存储设备中,保证了用户数据资料的安全管理与可靠存储.
所有终端的接入都经过严格的认证过程,只有被认证的合法终端才能够接入自己的虚拟桌面.用户终端与虚拟桌面云之间传输的各种信息,全部按照SSL标准进展加密,确保数据从录入、处理、呈现、存储全过程的安全.
用户终端相连的U盘等所有外设设备,都必须经过严格的控制与认证管理,才能够被使用,并且可以从后台直接进展"
禁用/启用〞管理.
〔2〕系统易管理
在PC模式下大规模部署的环境下,IT管理人员需消耗大量精力和时间去配置每一台PC终端.采用虚拟桌面云方案,桌面环境仅需在后台制作一个母镜像,即可以批量复制的方式,分发给所有虚拟机,在极端的时间完成部署,现场维护工作量随之将大大减少.
虚拟桌面云架构实现了桌面个性化与统一管理的平衡,既可以放开所有权限,使用户拥有最大化的自由度、享受个性化的便利;
也可以采用统一管理的模式,对用户桌面环境和权限进展统一的管理.管理员不仅可以对每一个终端、每一个用户,在后台灵活地调度与管理服务器资源、存储资源、虚拟存、虚拟CPU等各种虚拟资源,也可以远程登录虚拟桌面云服务器,对所有虚拟资源进展有效管理.
〔3〕桌面高可用
在传统PC模式下,用户往往因为PC设备的软硬件故障,导致用户数据丢失与用户使用环境重置.采用虚拟桌面云模式,所有的桌面容和用户数据,以镜像的方式集中存储于高性能的存储设备中,并会得到自动的、安全的备份,即使用户正在处理的、未保存的数据也不会因为用户端的突发故障而丢失.
虚拟桌面云服务器间构建集群,并且虚拟机采用动态启动模式、用户桌面镜像单独保存在存储设备中,最大限度降低因软硬件故障造成用户数据丢失和桌面环境重置的风险,也有力保证了用户工作与学习的连续性和高可用性.
〔4〕用户高便利
通过虚拟桌面云,用户的使用环境不再局限于某台具体的PC,而是可以在任何时间、任何地点,通过BYOD的方式,快速访问自己的虚拟桌面,实现灵活的、移动式的工作与学习.而且,因为用户的虚拟桌面是存储于服务器端,用户通过不同的终端设备访问,都可以获得一致性的使用体验.
如果同一用户需要不同的虚拟环境,比如不同的操作系统、不同的应用软件,无需配置多台PC,只需要在虚拟桌面云端开设多个虚拟环境,即可满足用户的多样化需求.与此类似,如果用户对硬件资源有新需求,也不用改变用户设备的配置,只需要在虚拟桌面云端调整用户的虚拟CPU、虚拟存、虚拟硬盘等虚拟硬件配置,即可使用户获得弹性的计算与存储能力.
〔5〕综合本钱低
采用虚拟桌面云架构,所有计算、存储、网络、应用等资源都部署在数据中心,并通过虚拟化技术统一管理,实现资源共享与弹性的调度,只有在用户需要时,才提供实际资源,因此可以有效地控制能耗,实现节能减排.
采用虚拟桌面云架构,还可以利用原有的无法满足新应用的计算速度与使用需求的旧设备,使其变为本地计算能力要求较低的云终端.另外,BYOD的使用方式,使得终端设备的采购、运营本钱降低,软硬件环境的维护、管理本钱也有所下降,最终达到综合本钱降低的目的.
教学云平台
教学云平台用来提供全方位的教学过程支撑环境,包括资源管理、课程组织,教学互动,教学统计等功能,并且可以和教学资源库有机结合.根据国院校的使用习惯,教学云平台融合了MOOC、翻转课堂等教学形式和理念,并基于云计算、大数据分析技术,通过智能辅导与多媒体资源,为教师和学生提供个性化的交互性教学与实践环境,并为管理者提供统一的教务管理途径.
教学云平台的功能特色主要有:
〔1〕支持教学创新
通过教学云平台,能够全面呈现各学院下各专业课程的教学过程和相关数据,方便教学管理.可以应用以MOOC、翻转课堂为代表的混合式教学等多种新型教学模式,支持教师对课程进展课前课中课后的个性化设计,满足专业改革、课程改革的需求.
〔2〕教学辅助管理
教学云平台可以和教学指导、多媒体资源、习题库、实践案例库等多种教学资源有机结合,并支持教师上传自己积累的教学容,形成个性化的课程容.通过教学过程组织,实现备课、作业布置提交与批改、教学过程检查等系统管理.
〔3〕教学数据分析
教学数据分析包含学生成绩、教学活动统计等多个层面,可以客观真实地表现学生的学习情况以与教学活动的实施情况.这些有效数据的汇总可以有效帮助教师调整教学方案,提高教学效果.同时,数据的积累与分析,也有助于综合化的教学评价、可量化的教学过程、个性化的教学模式、可视化的教育管理、数据化的教育决策等改革与创新的实施.
〔4〕"
学宝〞客户端
教学云平台配备有"
学宝〞客户端,使用者可以BYOD形式访问平台,客户端采用类似QQ界面,账号与教师工号和学生学号结合,免培训,操作简单,使用便捷.此外,教师和学生可通过"
学宝〞客户端进展实时的互动与反应,或者远程查看学生实践活动环境,进展远程指导.
〔5〕跨系统集成
教学云平台具有第三方接口,可与学校教务系统对接〔如青果、正方、Blackboard等〕,配合教务系统对教学过程全程管理.也可与考试系统、MOOC平台、网络教学平台等高校其他应用集成.
教学云平台的主要功能包括:
〔1〕教学资源管理
支持文本、图像、音频、视频等主流资源格式;
支持多层次结构化管理,支持模糊检索,支持树形结构展示;
支持对校资源知识产权进展加密保护;
支持批量转换、打包上传、校共享等功能;
支持在线学习、课堂教学、作业考试、实验实训等教学活动.
〔2〕教学过程组织
支持与第三方主流教务系统管理数据自动化无缝对接;
支持校选课机制,支持以行政班或教学班组织教学;
支持基于教学资源创建课程、配置课程容;
支持课程容模板化、批量化管理;
支持教师对具体课程容进展个性化调整.
〔3〕教学活动实施
支持教学容自动或人工推送给学生,支持在线学习;
支持课堂互动、作业考试、实验实训、分组训练等教学活动形式;
支持师生在线讨论、远程辅导、实时答疑等交流形式;
支持对学生学习活动进展自动或人工评价,实现过程性学习评价体系;
支持对学习评价结果进展数据统计分析.
〔4〕实训环境管理
支持平台直接访问教学活动所需要的虚拟桌面环境;
支持虚拟桌面环境模板化、批量化管理;
支持具体课程与虚拟桌面环境的预先绑定;
支持教师远程查看学生的虚拟桌面,进展远程辅导;
支持IP地址级别的访问权限控制.
2.4中国高校大数据课程公共服务平台
中国高校大数据课程公共服务平台,由中国高校首个"
数字教师〞的提出者和建设者——林子雨教师发起,由大学数据库实验室全力打造,由大学云计算与大数据研究中心、海峡云计算与大数据应用研究中心携手共建.平台从2013年5月开始建设,2015年8月1日完成1号工程〔教材出版〕,2015年11月2日,平台正式上线.这是国第一个服务于高校大数据课程建设的公共服务平台,旨在促进国高校大数据课程体系建设,提高大数据课程教学水平,降低大数据课程学习门槛,提升学生课程学习效果.
平台重点打造"
9个1工程〞,即1本教材〔含官网〕、1个教师服务站、1个学生服务站、1个公益项目、1堂巡讲公开课、1个示班级、1门在线课程、1个交流群〔、微信群〕和1个保障团队.
平台重点打造的"
9个1工程〞,具体如下:
1本教材〔含官网〕:
用于高校本科和研究生教学、入门级大数据专业教材《大数据技术原理与应用——概念、存储、处理、分析与应用》与其教材官网;
1个教师服务站:
即"
大数据课程教师服务站〞,为高校教师开展大数据课程教学提供一站式服务;
1个学生服务站:
大数据课程学生服务站〞,为学生学习大数据课程提供一站式服务;
1个公益项目:
大学辅助国高校开设大数据课程公益项目〞,辅助尚未开设大数据课程的国高校开设课程并提供全流程指导;
1堂巡讲公开课:
大数据示公开课全国巡讲计划〞,两个小时的大数据示课程,在全国围巡讲,宣传普与大数据知识;
1个示__即"
林子雨教师主讲的大学计算机科学系硕士研究生-大数据技术根底班级〞,以示班级树立大数据教学实践标杆;
1门在线课程:
大数据技术原理与应用在线课程〞,开辟网络大数据课程