哈工大概率论小论文10.docx
《哈工大概率论小论文10.docx》由会员分享,可在线阅读,更多相关《哈工大概率论小论文10.docx(9页珍藏版)》请在冰豆网上搜索。
哈工大概率论小论文10
概率论及数理统计在科技和游戏中的趣味应用
1.拓扑数据分析在机器学习中的应用
机器学习(ML)算法涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
而“拓扑数据分析”作为机器学习的一种形式,已经开始被广泛应用。
本文简要介绍“拓扑数据分析”在机器学习中的应用以及优势。
什么是拓扑学?
拓扑学是一种几何学,但它研究的并不是大家所熟悉的普通几何性质,而是一类特殊的几何性质,这就是“拓扑性质”,即图形在整体结构上的特性。
它与几何图形的大小、形状以及所含线段的曲直等无关。
不过,最近拓扑学开始和数据分析相结合,用来发现大数据中的一些隐形的有价值的关系,我们将其称为“拓扑数据分析”(TopologicalDataAnalysis,简称TDA)。
拓扑学中有一个著名的定理Euler多面体定理。
这个定理非常简单:
对于任意的一个凸多面体,它的面数为f,棱数为l,顶点数为v,那么其必然满足下面的等式:
f-l+v=2
也就是说顶点数与面数之和比棱数多2。
2这个数字,是第一个拓扑数,它标记拓扑等价于球面的几何体。
所谓拓扑等价,指的是如果两个几何体可以通过连续拉伸、扭曲、旋转等操作变换到对方(如图1),这些操作不能是粘合、撕裂,那么这两个几何体称作是拓扑等价的。
因此,也有人形象地将拓扑学称为橡皮几何学,因为它研究的性质在图形做弹性形变时是不会改变的。
图1拓扑等价示例
TDA可以有效地捕捉高维数据空间的拓扑信息,已成功地运用到许多领域,例如肿瘤、神经、图像处理和生物物理学等。
TDA的成功主要基于两个事实:
一是不同数据具有不同的结构,更形象地也可以称之为形状,即每个数据集都含有独特的形状;另一个是数据的形状蕴藏着巨大的研究价值,它能反映数据的大部分特征。
以下我们就着重讨论如何刻画“数据的形状”。
从几何的观点来看,降维可看成是挖掘嵌入在高维数据中的低维线性或非线性流形。
这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也互相靠近。
举个简单的例子,如图2,左边是点云数据,它与坐标无关,看起来像只手,右边是经过拓扑分析后得到的图像,看起来像“手的骨骼”。
图2拓扑分析示例
从左边到右边,就完成了拓扑分析“形状的重构”。
右图用几个点以及几条边就刻画出了与原数据存在“几分相似”的拓扑图,而TDA要找的就是这“几分相似”,因为这“几分相似”会产生很多有用的信息。
从以上例子可以看出,TDA学习的是数据集的整体特征,对小误差的容忍度很大——即便你的相似度概念在某种程度上存在缺陷,而且它完全不受坐标的限制,在发生变形时,仍能保持原有的性质,能很好地反映数据的形状。
这就是TDA的优点-通用性。
对于TDA,任何相似性概念都可以拿来使用,但对于ML,你需要一个(或更多)强化的相似性概念,与其他方法一起发挥作用。
与拓扑密不可分的“流形学习”。
提到拓扑,就不得不说“流形学习”。
“流形”就是在局部与欧氏空间同胚的空间。
换言之,它是局部具有欧氏空间性质的空间,能用欧氏距离来进行距离计算。
这给降维方法带来了很大的启发:
若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧氏空间的性质。
因此可以容易地局部建立降维映射关系,然后设法将局部映射推广到全局。
如果将维度降到2或3维,就能对数据进行可视化展示,因此流形学习也可被用于可视化。
“流形学习”是一类借鉴了拓扑流形概念的降维方法,分为线性的和非线性两种:
线性的流形学习方法,如我们熟知的主成份分析(PCA)。
非线性的流形学习方法,包括等距映射(Isomap)、拉普拉斯特征映射(LaplacianEigenmaps,简称LE)、局部线性嵌入(Locally-linearEmbedding,简称LLE)。
本文主要介绍一种比较新的流形学习方法:
t-分布邻域嵌入算法(t-DistributedStochasticNeighborEmbedding,简称t-SNE)。
t-SNE主要基于这样的思想:
如果两个数据点在原始空间中距离较近,但它们的两个映射点距离较远,它们就会相互吸引;当它们的两个映射点距离较,则他们会相互排斥。
当达到平衡时得到最后的映射,完成原始高维空间与低维映射空间之间的映射关系。
TDA经常与t-SNE算法相结合使用,能达到比较好的效果。
下面通过一个TDA与t-SNE处理高维数据的案例来说明。
样本如图3,为MNIST手写数字识别库,它是美国中学生手写的数字数据库,总共有1797张图片,每张图片的大小为8*8,展开之后就是64维,每张图片代表一个样本点,所以样本数据大小为(1797,64)。
考虑到高维数据计算余弦距离最快,我们采用余弦距离表示每个样本点的相似度。
图3MNIST手写数字识别库图4t-SNE与TDA相结合的计算结果
图5t-SNE与TDA相结合的计算结果
利用t-SNE与TDA相结合的算法进行计算,结果如图4和图5所示。
点越大说明该集合所含的样本点越多,有边连接的部分说明两个集合相似度比较高。
不同的颜色代表原始高维空间与低维映射空间之间的不同映射关系。
简单查看结果,可以发现TDA确实把相似度高的集合连接在了一起,而相似度较低的集合被分开了。
从这个例子可以看出,利用TDA做可视化也是一个不错的选择。
TDA的应用比较广泛,GurjeetSingh的文章[1]中给出了很多有关TDA的应用,例如图6,第一列和第三列代表3D数据,与它们相对应的拓扑图分别放置在第二列和第四列。
它们简明地向我们解释着数据中隐藏的形状,从中我们可以得到很多有用信息,这是传统方法无法识别的。
图6TDA可以简明地解释数据中隐藏的形状
另外,瀚思在帮助客户利用TDA对用户行为进行分析时,发现它的计算时间也相当快。
测试样本数据大小为10w*10w,计算时间约为五分钟,而且错误率仅仅为1.3%。
这相比传统的方法,看起来相当可观。
总结
TDA是机器学习中一个非常强大的工具,TDA与机器学习方法可以一起使用,得到的效果比使用单个技术更好。
更重要的是,它从很大程度上改变了我们分析数据的方式,将拓扑这个纯数学领域的学科与数据分析相结合,是一个很前沿和大胆的技术。
2.《极限脱出3零时困境》硬币朝上的概率是多少?
在Q队中米拉提到了睡美人问题(眠り姫問題),我刚好玩到那里,有感而发。
以下是睡美人问题:
传说有个睡美人,在一个周日的夜晚被一群猥大的科学家召去做试验。
她被告知实验过程如下:
她先会在当晚洗洗后上床睡觉。
然后猥大的科学家们就会扔个硬币,如果朝上的话,她将会在周一早晨被科学家叫醒,然后进行访问,实验结束。
如果朝下的话,她同样会被在周一叫醒,进行同样的访问,但是这次访问完毕后她会被灌失忆药,让她忘记她曾经被叫醒过。
吃完药后被安置回床睡,周二早上再次叫醒,进行访问。
实验结束。
而每次访问的问题就是:
你觉得硬币朝上的概率是多少?
有人认为概率总是1/2,因为这是世间公理。
有人认为概率应该是1/3,因为可能性只有“硬币朝上,在周一醒来”“硬币朝下,在周一醒来”和“硬币朝下,在周二醒来”三种,按照统计学原理P(A)=A发生的次数/事件发生的总次数来算才能得到正确答案。
这的确让人苦恼,因为硬币朝下的概率为1/2是一个不可能撼动的绝对真理(仅限三维空间)。
事实上,回答1/2和1/3的人完全将这个题目理解成了两个不同的问题。
这个哲学(数学)问题困扰人的地方就在于:
这个实验中访问时的提问存在严重歧义,提问者有意识或无意识地将这个问题的题干模糊化了。
那么,回答1/3的人究竟将这个问题理解成什么了呢?
我们举几个例子就懂了。
问题①:
假设神在创造世界的时候玩硬币,TA扔了一枚硬币,朝上的时候就创造一个世界,朝下的时候就创造两个世界。
现在我们在这三个世界中的一个世界,请问我们在硬币朝上的世界中生活着的概率为多少?
回答①:
毫无疑问,答案是1/3,我们“活在”任何一个世界里的几率都为1/3。
神“创造”世界的这个动作与我们“活在”世界里这两个动作是截然不同的,无法用同一个题干概括。
以上这个问题告诉了我们答案1/2与1/3共存的合理性。
因为这完全是两个问题嘛。
那么为什么这两个问题能够写到一个题干里?
我们来看问题②。
问题②(本题有两个小问):
假设我们玩抓娃娃机。
这个娃娃机比较特别,内部被分成了A区和B区,在AB区的中间有一个抓手。
机器外面有且只有一个按钮,按下按钮后抓手全自动操作,保证100%能帮你抓到娃娃。
机器被不透明的金属包着,身处机器外部的我们看不到里面的具体情况。
现在有一个世人皆知的潜规则:
这个娃娃机的抓手移向A区和B区的概率是相同的,即各为1/2。
在A区只有一个娃娃,在B区有两个娃娃。
现在抓出来了一个娃娃。
请问娃娃机的抓手移向A区的概率为多少?
请问抓出来的娃娃是A区的概率为多少?
回答②:
这下看出问题来了吧?
第一个小问问的是“还没抓娃娃的时候会怎样,推测接下来将要完成的动作是向A移动还是向B移动”,而移动这件事毫无疑问是五五开的,即1/2。
而第二小问呢?
此时问的是“娃娃已经被抓出来了,推测这个娃娃归属于A区还是B区”。
如果问题①还是太过抽象无法理解,那么问题②应该非常具体了:
“机械抓手向A区移动的概率”与“娃娃归属于A区的概率”完全是两码事。
但是作为提问者,我完全可以把两个问题杂糅在一起——“请问机械抓手抓了A区还是B区?
”
再回到睡美人问题上来。
去除这个背景条件,一般人在被问到“你觉得硬币朝上的概率是多少”这个问题的时候,毫无疑问会回答1/2。
因此这时候你会发现所谓的难题只不过是文字游戏而已。
让我做一个了断吧(中二顔):
硬币朝上的概率为1/2,睡美人醒在“因硬币朝上而创造的世界”之中的概率为1/3。
3.阴阳师手游雪女冻人概率分析雪女冻人概率怎么增加?
一,技能介绍
暴风雪——3火:
召唤暴风雪攻击敌方全体3次,每次造成雪女攻击力30%的伤害,有8%(+效果命中)的概率冻结敌人一回合,处于减速状态的敌人被冰冻概率增加10%。
小伙伴们可能会问,她的冰冻概率不是才8%吗?
为什么每次放技能都冻住一大片?
那概率连80%都有了。
其实不然,她的大招是计算三次伤害,也就是说每次都有8%的概率冻住敌人。
二,冰冻概率分析
雪女的大招在配合适当的御魂以后,对敌方单位的冰冻能力是相当强的,所以小伙伴们不要再埋怨雪女的实际冰冻概率和面板上显示的不匹配了。
经过科学的计算以后可以发现雪女大招的冰冻概率真的是很惊人的。
三,冰冻概率计算
这里就给大家计算下不同情况下雪女的冰冻概率吧!
(1)首先来计算雪女在不佩戴任何加效果命中的御魂情况下的冰冻概率:
8%+(1-8%)*8%+(1-8%-(1-8%)*8%)*8%=22.13%
算下来对每个敌人冰冻的净概率是22.13%
如果按斗技场对面上场四个单位的情况下算,所有敌方单位都没被冰冻的概率是
(1-22.13%)^4=36.77%
也就是说至少冻住一个单位的概率是
1-36.77%=63.23%
结论:
雪女在不叠任何效果命中,不佩戴雪幽魂的情况下,在斗技场先手大招,有63.23%的概率对对方至少一个单位施加冰冻效果。
(2)小伙伴们在选择雪女的御魂的时候,首选御魂当属雪幽魂了,所以接下来我们计算雪女在不叠加效果命中,净配一套雪幽魂的情况下的冰冻概率:
雪幽魂在凑齐四件套的时候,每次造成伤害会有12%的概率冰冻目标。
所以雪女大招每次造成伤害后的冰冻概率被提高至了8%+(1-8%)*12%=19.04%
这样算下来,大招对每个敌方单位的冰冻概率为:
19.04%+(1-19.04%)*19.04%+(1-19.04%-(1-19.04%)*19.04%)*19.04%=48.02%
(1-48.02%)^4=7.30%
也就是说至少冻住一个单位的概率是
1-7.30%=92.70%
结论:
雪女在不叠加任何效果命中,单配一套雪幽魂,在斗技场先手大招,有92.70%的概率对对方至少一个单位施加冰冻效果。
(3)当然,各位同学为雪女配置御魂的时候,也不会单配一套雪幽魂,按照4+2的传统,大多数小伙伴还会配上一套加15%效果命中的其他两件套,所以接下来我们就计算雪女在这种情况下的冰冻概率。
这里先说明一下,效果命中这个属性不是直接加在技能命中率上的,而是以相乘的形式。
所以暴风雪的基本命中率在叠加了15%的效果命中后就提升为了8%+8%*15%=9.2%
再在配置一套雪幽魂的条件下,每次伤害的冰冻概率变为9.2%+(1-9.2%)*12%=20.10%
这样算下来,大招对每个敌方单位的冰冻概率为:
20.10%+(1-20.10%)*20.10%+(1-20.10%-(1-20.10%)*20.10%)*20.10%=48.99%
(1-48.99%)^4=6.77%
也就是说至少冻住一个单位的概率是
1-6.77%=93.23%
结论:
雪女在叠加15%效果命中,单配一套雪幽魂,在斗技场先手大招,有93.23%的概率对对方至少一个单位施加冰冻效果。