人工智能分支技术详解Word格式.docx
《人工智能分支技术详解Word格式.docx》由会员分享,可在线阅读,更多相关《人工智能分支技术详解Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
机器学习:
Scikit-learn算法
此部分内容可以帮助你解决机器学习中最难的部分,即找到正确的估计器(Estimator)。
下图可帮助快速查找文档与简介,更快了解问题并找到解决方法。
Scikit-Learn
Scikit-learn(更正式的叫法为scikits.learn)是Python的一个用于机器学习的免费库。
库中有大量的分类,回归与聚类算法,并支持向量机、随机森林、梯度提升、
K均值与
DBSCAN。
旨在与Python数字库NumPy和科学库SciPy进行交互。
算法
此部分旨在介绍如何根据预测分析方案选择合适的机器学习算法。
下图可以根据数据性质提出最佳算法。
用于数据科学的Python
TensorFlow
谷歌于2017年5月宣布了第二代TPU并在谷歌计算引擎中加入了对TPU的支持。
第二代TPU拥有高达180万亿次浮点运算性能(180teraflops)。
当64个TPU组合在一起时,可以提供高达11.5千万亿次浮点运算性能(11.5petaflops)。
Keras
2017年,谷歌在TensorFlow的核心库中加入了对Keras的支持。
有学者认为,认为相较于端到端的机器学习框架,Keras更适合作为接口来使用。
它提供了更高级别,更直观的抽象集合,使得无论后端科学计算库如何,都可以轻松配置神经网络。
Numpy
NumPy是针对Python的CPython参考实现,是一个非优化的字节码解释器。
针对目前版本的Python编写数学算法的运行速度相对较慢的问题,Numpy使用多维数组和函数与运算符来改写部分代码来提高运行效率。
Pandas
名称“Pandas”源于“面板数据”(PanelData)一词,是多维结构化数据集的计量经济学术语。
数据预处理
数据预处理一词已经开始渗透进流行文化中。
在2017年电影“金刚:
骷髅岛”中,演员马克·
埃文·
杰克逊(MarcEvanJackson)饰演的角色为“我们的数据处理者–史蒂夫·
伍德沃德。
用Dplyr与Tidyr进行数据预处理
SciPy
SciPy是基于NumPy数组对象进行构建,为NumPy堆栈的一部分。
包括Matplotlib,pandas和SymPy等工具,以及扩展的科学计算库集。
该NumPy堆栈与其他应用程序(如MATLAB,GNUOctave和Scilab)具有类似的使用者。
NumPy堆栈有时也被称为SciPy堆栈。
Matplotlib
Matplotlib是Python编程语言及其数学数学扩展NumPy的绘图库。
它提供了面向对象的API,用于使用Tkinter,wxPython,Qt或GTK+等通用GUI工具包将图形嵌入到应用程序中。
还有一个基于状态机(如OpenGL)的程序“pylab”接口。
接口类似MATLAB,但不鼓励使用。
Pyplot是一个matplotlib模块,他提供了一个类似MATLAB的界面。
Pyplot拥有跟MATLAB一样易上手,兼容Pyhton并且免费的优点。
数据可视化
PySpark
扫码进入知识分享社群