大数据安全变革 期末科技素质课作业.docx
《大数据安全变革 期末科技素质课作业.docx》由会员分享,可在线阅读,更多相关《大数据安全变革 期末科技素质课作业.docx(6页珍藏版)》请在冰豆网上搜索。
大数据安全变革期末科技素质课作业
大数据时代的
生活变革
专业:
电子商务
D01114074丁宇
在文章的开头,请容许学生简单解释下自己的专业背景,我主修电子商务专业,以前曾经主修过生物科学专业,在理工科的学习让我深刻理解到数据收集和处理对科研的重要性,而在修习电子商务方面的知识时,学生更多接触到电商通过利用数据,分析买家的特点以及偏好,进行更好的生产以及个性化营销,更好地服务者我们的生活(在今天,网购成瘾需要避免,但是网购的优越性确实无法忽视),学生逐渐体会到数据也正改变着我们的生活。
事实上,数据是一直存在和服务着我们的生活的,但是今天的数据在互联网法则下似乎更加强大和无所不在。
我们使用和分析数据的初衷是得到有效的结论,从而为我们以后的生活提供指导和服务。
但囿于技术手段的发展,我们常常会对数据进行抽样后再通过一系列的数据处理手段得到想要的结论,这些结论会更接近于真理,但是往往更背离于事实。
就像黑天鹅理论中所说,黑天鹅尚未发现之前一切基于黑天鹅不存在这一假设的结论一切都是正确的,直到黑天鹅出现,一切归于幻影。
当然我们也不可以否认,科学发展史上,很多看似是谬误的结论和数据偏差可能正是事实所在。
科学是忠于真理的,而真理必须趋于事实。
在云计算技术得到发展之后,科研的计算能力和质量得到的质的飞跃,处理更多的数据,拟合更真实的模型已经是可能实现的了,发明更好的算法,处理更多的数据,接触更真实的世界,在最浩大的计算里,重新挖掘数据,使这些数据完整我们的现在和未来,大数据应运而生。
以下援引XX百科对大数据的定义:
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4V特点:
Volume、Velocity、Variety、Veracity。
事实上,最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
空谈大数据的概念可能让人感到乏味,我们不妨来看一些事实:
1、变革公共卫生。
2009年,H1N1病毒。
在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。
它令公共卫生官员们和计算机科学家们感到震惊。
文中解释了谷歌为什么能够预测冬季流感的传播:
不仅是全美范围的传播,而且可以具体到特定的地区和州。
谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。
谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。
谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。
他们希望通过分析人们的搜索记录来判断这些人是否患上了流感,其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。
虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也不知道哪些词条更重要。
更关键的是,他们建立的系统并不依赖于这样的语义理解。
他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。
谷歌公司为了测试这些检索词条,总共处理了4.5亿个不同的数学模型。
在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。
和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。
而在这一事件中,大数据的及时性和准确性比较与传统技术优势相当明显。
二、变革商业。
1994年,埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler,该引擎后来被InfoSpace公司收购。
他联合创立了第一个大型比价网站Netbot,后来把它卖给了Excite公司。
他创立的从文本中挖掘信息的公司ClearForest则被路透社收购了。
在他眼中,世界就是一系列的大数据问题,而且他认为自己有能力解决这些问题。
作为哈佛大学首届计算机科学专业的本科毕业生,自1986年毕业以来,他也一直致力于解决这些问题。
埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。
这个预测系统建立在41天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。
这个预测系统并不能说明原因,只能推测会发生什么。
也就是说,它不知道是哪些因素导致了机票价格的波动。
机票降价是因为有很多没卖掉的座位、季节性原因,还是所谓的“周六晚上不出门”,它都不知道。
这个系统只知道利用其他航班的数据来预测未来机票价格的走势。
“买还是不买,这是一个问题。
”埃齐奥尼沉思着。
他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。
这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。
通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。
这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者参考。
系统的运转需要海量数据的支持。
为了提高预测的准确性,埃齐奥尼找到了一个行业机票预订数据库。
而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。
如今,Farecast已经拥有惊人的约2000亿条飞行数据记录。
利用这种方法,Farecast为消费者节省了一大笔钱。
数据价值的核心是预测,这个事例中,预测的价值甚至可以价格化了,商业拥抱大数据,而我们作为消费者也脱不了干系,我们创造数据,同时被它们影响和改变,而真正改变我们习惯的,是我们思维方式的改变。
用大数据去拥抱生活,我们无意识却已经热衷于这么做。
三、大数据的产生基础——信息爆炸
到2013年,世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。
这样大的数据量意味着什么?
如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。
如果将之存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。
公元前3世纪,埃及的托勒密二世竭力收集了当时所有的书写作品,所以伟大的亚历山大图书馆可以代表世界上所有的知识量。
但当数字数据洪流席卷世界之后,每个地球人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。
(《大数据时代》,[英]维克托迈克-舍恩伯格)
人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。
基于此,我们对大数据态度可能有更多改变,以纳米技术为例。
纳米技术专注于把东西变小而不是变大。
其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。
一旦你知道这些新的性质,你就可以用同样的原料来做以前无法做的事情。
铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。
银离子具有抗菌性,但当它以分子形式存在的时候,这种性质会消失。
一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。
同样,当我们增加所利用的数据量时,我们就可以做很多在小数据量的基础上无法完成的事情。
上述的例子应该能够充分展示大数据的优势及大数据时代的浩荡洪流了。
但是,隐于如此繁华和众人喧嚣的大数据现状之下,什么危机在暗自涌动?
我们的第一反应会是数据安全。
数据安全不可忽视,去年的彭博数据泄密严重程度不可小觑,棱镜门导致的信任危机也相当严重,近日美监视欧各国领导人通话的新闻又被爆出。
数据安全,是大数据发展之本。
而如果做前瞻性的打算,或许云安全是大数据时代更切实的热点。
以下定义援引自XX百科:
“云安全(CloudSecurity)”计划是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,传送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
以下是学生经过查阅一些资料,得到的关于云安全的一些认识:
云端问题:
云计算安全七宗罪云安全联盟与惠普公司共同列出了云计算的七宗罪,主要是基于对29家企业、技术供应商和咨询公司的调查结果而得出的结论。
1.数据丢失/泄漏:
云计算中对数据的安全控制力度并不是十分理想,API访问权限控制以及密钥生成、存储和管理方面的不足都可能造成数据泄漏,并且还可能缺乏必要的数据销毁政策。
2.共享技术漏洞:
在云计算中,简单的错误配置都可能造成严重影响,因为云计算环境中的很多虚拟服务器共享着相同的配置,因此必须为网络和服务器配置执行服务水平协议(SLA)以确保及时安装修复程序以及实施最佳做法。
3.内奸:
云计算服务供应商对工作人员的背景调查力度可能与企业数据访问权限的控制力度有所不同,很多供应商在这方面做得还不错,但并不够,企业需要对供应商进行评估并提出如何筛选员工的方案。
4.帐户、服务和通信劫持:
很多数据、应用程序和资源都集中在云计算中,而云计算的身份验证机制如果很薄弱的话,入侵者就可以轻松获取用户帐号并登陆客户的虚拟机,因此建议主动监控这种威胁,并采用双因素身份验证机制。
5.不安全的应用程序接口:
在开发应用程序方面,企业必须将云计算看作是新的平台,而不是外包。
在应用程序的生命周期中,必须部署严格的审核过程,开发者可以运用某些准则来处理身份验证、访问权限控制和加密。
6.没有正确运用云计算:
在运用技术方面,黑客可能比技术人员进步更快,黑客通常能够迅速部署新的攻击技术在云计算中自由穿行。
7.未知的风险:
透明度问题一直困扰着云服务供应商,帐户用户仅使用前端界面,他们不知道他们的供应商使用的是哪种平台或者修复水平。
客户端问题:
对于客户来说,云安全有网络方面的担忧。
有一些反病毒软件在断网之后,性能大大下降。
而实际应用当中也不乏这样的情况。
由于病毒破坏,网络环境等因素,在网络上一旦出现问题,云技术就反而成了累赘,帮了倒忙。
解决方式
一种“混合云”技术,将公有云与私有云相结合,既发挥了公有云用户量大的优势,又保留了本地的数据能力,结合了传统与新技术的优势,解决了不少应用问题。
企业云安全解决方案:
1.内部私有云,奠定你的云计算基础
提升云安全的第一个方法:
了解自己。
企业需要对现有的内部私有云环境,以及企业为此云环境所构建的安全系统和程序有深刻的理解,并从中汲取经验。
不要辩解说你的企业并没有建立私有云,事实上,不知不觉中,企业已经建立了内部云环境。
在过去十年中,大中型企业都在设置云环境,虽然他们将其称之为"共享服务"而不是"云".这些"共享服务"包括验证服务、配置服务、数据库服务、企业数据中心等,这些服务一般都以相对标准化的硬件和操作系统平台为基础。
2.风险评估,商业安全的重要保障
提升云安全的第二种方法:
对各种需要IT支持的业务流程进行风险性和重要性的评估。
你可能很容易计算出采用云环境所节约的成本,但是"风险/收益比"也同样不可忽视,你必须首先了解这个比例关系中的风险因素。
云服务供应商无法为企业完成风险分析,因为这完全取决于业务流程所在的商业环境。
对于成本较高的服务水平协议(SLA)应用,云计算无疑是首选方案。
作为风险评估的一部分,我们还应考虑到潜在的监管影响,因为监管机构禁止某些数据和服务出现在企业、州或国家之外的地区。
3.不同云模型,精准支持不同业务
提升云安全的第三种方法:
企业应了解不同的云模式(公共云、私有云与混合云)以及不同的云类型(SaaS,PaaS,IaaS),因为它们之间的区别将对安全控制和安全责任产生直接影响。
根据自身组织环境以及业务风险状况(见上第2条的分析),所有企业都应具备针对云的相应观点或策略。
4.SOA体系结构,云环境的早期体验
提升云安全的第四个方法:
将SOA(面向服务的架构)设计和安全原则应用于云环境。
多数企业在几年前就已将SOA原则运用于应用开发流程。
其实,云环境不就是SOA的大规模扩展吗?
面向服务的架构的下一个逻辑发展阶段就是云环境。
企业可将SOA高度分散的安全执行原则与集中式安全政策管理和决策制定相结合,并直接运用于云环境。
在将重心由SOA转向云环境时,企业无需重新制定这些安全策略,只需将原有策略转移到云环境即可。
5.双重角色转换,填补云计算生态链
提升云安全的第五个方法:
从云服务供应商的角度考虑问题。
多数企业刚开始都会把自己看作云服务用户,但是不要忘记,你的企业组织也是价值链的组成部分,你也需要向客户和合作伙伴提供服务。
如果你能够实现风险与收益的平衡,从而实现云服务的利益最大化,那么你也可以遵循这种思路,适应自己在这个生态系统中的云服务供应商的角色。
这样做也能够帮助企业更好地了解云服务供应商的工作流程。
6.网络安全标准,设置自身"防火墙"
提升云安全的第六个方法:
熟悉企业自身,并启用网络安全标准-长期以来,网络安全产业一直致力于实现跨域系统的安全和高效管理,已经制定了多项行之有效的安全标准,并已将其用于、或即将用于保障云服务的安全。
为了在云环境世界里高效工作,企业必须采用这些标准,它们包括:
SAML(安全断言标记语言),SPML(服务配置标记语言),XACML(可扩展访问控制标记语言)和WS-Security(网络服务安全)。
由于学生的学历层次、技能层次和认知水平有限,对一些问题的看法会比较幼稚。
基于大数据安全的云安全的发展是学生通过阅读一些文献了解到的,看法多有不成熟处,望老师指正。
文献援引来自:
《数字是靠不住的》[美]查尔斯赛费
《免费:
商业的未来》[美]克里斯安德森
《失控》[美]凯文凯利
《重来:
更为简单有效的商业思维》[美]贾森弗里德
《大数据时代》[美]维克托迈克-舍恩伯格