pythonpandas数据分析技术与编程方法讲座docWord文档格式.docx

资源描述

pythonpandas数据分析技术与编程方法讲座docWord文档格式.docx

《pythonpandas数据分析技术与编程方法讲座docWord文档格式.docx》由会员分享，可在线阅读，更多相关《pythonpandas数据分析技术与编程方法讲座docWord文档格式.docx（7页珍藏版）》请在冰豆网上搜索。

pythonpandas数据分析技术与编程方法讲座docWord文档格式.docx

　　大多数Python代码都可以在PyPy下运行，但是PyPy和CPython有一些不同，这导致在两个解释器下执行相同的Python代码时会产生不同的结果。

　　如果您的代码要在PyPy下执行，您需要理解PyPy和CPython之间的区别。

　　Python解释器JythonJython是运行在Java平台上的Python解释器，它可以直接将Python代码编译成Java字节码来执行。

　　Python解释器IronPython与Jython类似，只是运行在微软网络平台上的IronPython解释器可以直接将Python代码编译成网络的字节代码。

　　Python解释器操作系统:

位窗口版本:

pythonmsi注意:

Checkaddtoenvironment默认安装pip添加pip环境变量路径=C:

Pythonscriptspypi（PythonPackageIndex）是Python的官方第三方库仓库pip是一个用于安装和管理Python包的工具。

　　PYTHONNOTEPADPYCHARMPYTHON开发环境重叠提供配置PyDevInterpreter打开窗口首选项对话框选择PyDevInterpreter选项单击新建从Python的安装路径中选择Pythonexe。

　　您也可以单击自动配置自动配置来搜索已安装的python自动配置。

　　Python开发环境Python开发环境Python文件不支持中文注释:

#coding=encodingname#！

usrbinpython#*编码:

encodingname*#！

usrbinPhython#vim:

setfileencoding=编码名称:

eg:

#encoding=特殊说明:

Python文件编码声明Python中的行标题的空白很重要，称为缩进。

　　逻辑行开头的空格（空格和制表符）用于确定逻辑行的缩进级别，从而确定语句的分组。

　　如果==:

打印#wearenaworldofFARITHMETICAIN#PRINT#谢谢播放#输出谢谢播放==:

打印#wearenaworldofFARITHMETICAIN#PRINT#谢谢播放#将没有输出。

请特别注意:

缩进可以使用空格或TABs来生成缩进。

两个空格或四个空格是可能的，但通常建议使用制表符来生成缩进。

您的程序应该始终使用缩进规则。

　　Python代码缩进决定了代码的逻辑关系，而不仅仅是为了好看！

！

特别注意:

缩进式熊猫数据分析软件科学计算软件科学计算软件科学计算软件matplotlib绘图软件科学机器学习软件Seaborn数据可视化工具包常用扩展包Python数据分析软件AQRCapitalManagement于1月开发结束时开放。

目前，专注于Python数据包开发的PyData开发团队继续将它作为PyData项目的一部分进行开发和维护。

　　在:

frompandasimportseries中，dataframein:

importpandassappeandsseries系列是一个一维标记数组，它可以存储任何数据类型，如integer、string、浮点类型和Python对象等。

轴的一般索引。

　　一维数组序列中的基本数据结构列表不同:

列表中的元素可以是不同的数据类型，而数组和序列中只允许存储相同的数据类型，这样可以更有效地利用内存，提高运算效率。

　　熊猫的数据结构数据框架数据框架是一种二维标记数据结构。

列可以是不同的数据类型。

　　它是熊猫最常用的物品。

像序列一样，它可以接收各种输入:

列表、字典、序列和数据帧等。

　　除了数据之外，在初始化对象时还可以传递索引和列。

　　数据结构面板熊猫很少使用，但它是一个非常重要的三维数据容器。

　　泛（el）da（ta）s源于经济学，也是泛（el）da（ta）s的来源。

　　熊猫中的数据结构面板面板是对像面板这样的维度容器作为N维容器的测试。

　　PanelD是Panel的一个子集，因此Panel的大多数方法都可以用于D，但是以下方法不可用:

Join、ToExcel、ToFrame、ToSparse、GroupBy。

　　PanelNDPanelND是熊猫中的数据结构，它是一个拥有工厂集合的模块，可以创建像PanelD这样的N维命名容器。

　　熊猫中的数据结构通过传递一个列表对象来创建系列。

默认情况下，会创建整数索引In:

obj=序列（，）。

创建具有索引的:

obj=series（、、index=#d##b##a#中的序列来确定每个数据点。

#c#）如果您在Python字典中有一些数据，您可以通过将字典传递到以下位置来创建系列:

sdata={#ohio#:

，#Texas#:

，#Oregon#:

，#Utah#:

}in:

obj=Series（SDATA）in:

States=#California###Ohio#，Oregon##Texas#in:

OBJ=Series（SData，Index=STATES）系列相关操作创建通过布尔数组筛选的标量乘法或使用数学函数将保持索引和值之间的关联:

系列相关操作系列是一个固定长度的有序字典，因为它

　　它可以应用于许多需要字典的函数:

系列相关操作使用函数is和不使用函数来检测熊猫中的数据丢失:

pdis（obj）pdnot（obj）系列还提供了这些函数的示例方法:

objis（）系列相关操作系列的一个重要功能是它在算术运算中自动对齐不同索引的数据:

系列相关操作系列对象本身及其索引具有名称属性，该方法与熊猫的其他关键功能集成:

系列相关操作从坐标轴删除条目拖放方法将返回一个新对象，并从坐标轴删除一个或多个指定对象值:

系列相关操作系列可以使用索引值或仅使用整数进行索引:

系列相关操作直方图:

系列相关操作字符串方法:

系列相关操作通过传递NumPyarray时间索引和列标签来创建数据框架。

如果设置列顺序的列，即数据帧，将根据传递的顺序精确排列，则它的索引将自动分配，列将被排序。

将创建相关操作。

数据框架将由嵌套字典格式创建。

外部键将被解释为列索引。

内部键将被解释为行索引。

内部字典中的关键字将被组合和排序以形成结果索引。

结果可以被转置:

与数据框架相关的操作将在数据框架中创建一列。

可以通过字典符号或属性来检索:

请注意，返回的序列包含与数据框架相同的索引，并且它们的名称属性也设置正确。

　　将引入数据框架相关操作的检索特殊索引字段ix，以使数据框架能够对行执行标签索引。

　　这允许您从数据框架中选择行和列的子集，这也是一种不太冗长的重新索引方法。

　　数据框架相关操作检索数据框架有许多方法来选择和重新排列熊猫对象中包含的数据。

　　可以通过赋值来修改与数据框架相关的操作检索列。

　　例如，空的lsquodebtrsquo列可以通过标量或数组来赋值。

注意:

由列表或数组分配给列的值的长度必须与数据框的长度相匹配。

　　使用序列赋值将替换数据框中完全匹配的索引值，并将缺失的数据NaN插入所有孔中。

为不存在的列赋值将创建一个新的列数据框架相关操作。

分配熊猫最重要的特征之一是在具有不同索引的对象之间执行算术运算。

　　将对象添加在一起时，如果任何索引对不同，则相应的索引将被合并到结果中。

　　数据框相关运算算术运算不同索引对象之间的算术运算当在另一个对象中找不到轴标签时，您可能需要填写特定的值，如。

　　如何使用？

与数据框相关的操作可以从数据框的任何坐标轴删除索引值:

像字典一样，del关键字将删除列:

与数据框相关的操作写入excel文件:

dftoexcel（#fooxlsx#，sheetname=#sheet#）从excel文件读取:

pdreadexcel（#fooxlsx#，sheet#，indexcol=none，navalues=#na#）写入csv文件:

dftoSV（#foocsv#）从csv文件读取:

pdreadcsv（#foocsv#）写入#df#）数据框架相关操作导入和保存数据首先考虑二维数组和其中一行之间的差异，这是一个令人兴奋的例子:

这被称为广播。

　　数据框和序列之间的操作类似于数据框和序列之间的操作:

熊猫的索引对象用于存储坐标轴标签和其他元数据（如坐标轴名称或名称）。

　　构建系列或数据框架时，任何数组或其他序列标签都在内部转换成索引；

熊猫的索引对象是不可变的；

不能被用户改变；

索引对象的不变性非常重要；

因此它可以在数据结构的结构中被安全地共享；

熊猫的主要索引对象；

熊猫的索引对象除了类似于数组索引之外还有类。

与固定大小的集合相同的功能:

熊猫的索引对象具有许多关于集合逻辑的方法和属性，并且可以解决它所包含的数据的常见问题。

　　熊猫的索引对象重新索引意味着使数据符合新的索引以构建新的对象。

　　调用序列上的重新索引来重新排列数据，使其符合新的索引。

如果该索引的值不存在，则引入缺失数据值:

熊猫对象的一个关键方法是重新索引，以便对时间序列等数据进行排序。

重建索引时，可能需要插值或填充该值。

　　方法选项可以是通过使用诸如ffill之类的方法来向前填充值:

reindex的方法选项:

熊猫对象reindex的一个重要功能可以为DataFramereindex更改（行）索引列或两者都更改。

　　当只传入一个序列时，结果中的行被重新索引:

熊猫对象重新索引列的一个重要功能可以使用columns关键字重新索引:

熊猫对象重新索引的一个重要功能可以一次重新索引两个，但是只能在行侧（坐标轴）执行插值:

使用标记ix的熊猫对象重新索引的一个重要功能可以使重新索引更简单:

pandas对象重新索引的一个重要功能重新索引参数重新索引功能:

熊猫对象的一个重要功能重新索引熊猫提供了大量的方法来根据各种逻辑关系方便地合并系列数据框架和面板对象。

　　串联合并（类似于SQL类型合并）追加（将行连接到数据框架）数据规范化合并串联数据规范化合并默认情况下，合并的关键在于内部连接结果是交集。

　　其他方式包括左右和外侧。

　　数据规格化合并追加数据规格化合并堆栈确认数据规格化重构数据透视表数据规格化重构重复数据框的方法频繁出现重复的行返回一个布尔序列，指示每一行是否是重复的行和删除重复的方法它返回一个删除了重复行的数据框:

数据规格化清理执行描述性统计:

数据平均值（）对其他轴执行描述性统计:

数据平均值（）数据聚合和分组将函数应用于数据:

数据聚合和分组对于分组操作，我们通常参考以下一个或多个操作步骤:

（拆分）根据某些规则将数据分成不同的组（应用）执行函数（组合）对于每组数据，将结果合并到一个数据结构中，数据聚合和分组，并对每组执行求和功能:

传递多个列。

对列进行分组以形成分层索引，然后执行以下功能:

数据聚合和分组大问题的背景:

大家都熟悉的“‘杰克和我’的故事”。

豪华游艇正在快速下沉，每个人都害怕逃跑，但是救生艇的数量是有限的。

不是每个人都能加入。

副队长说“女士优先！

”“因此，是否获救不是随机的，而是基于一些背景。

　　训练和测试数据是一些乘客的个人信息和生存状态，应该尝试基于它生成适当的模型并预测其他人的生存状态。

　　这是一个逻辑推理可以处理的二分问题。

　　案例逻辑回归Kaggle大灾难监督学习无监督学习半监督学习机器学习算法概述从机器学习的角度看问题回归算法从算法的功能角度看实例分类算法决策树算法贝叶斯算法聚类算法人工神经网络深度学习算法维数算法模型集成算法机器学习算法概述机器学习算法概述预测结果如果结果是离散值（例如，邮件中的垃圾邮件分类问题，普通邮件，例如，用户是否会购买产品）那么我们称之为分类问题（朴素贝叶斯=0）并且预测结果是连续值（例如房价、股票价格等）。

），那么我们称之为回归问题。

　　线性回归和回归逻辑回归监督学习分类等机器学习分类的成功在于通过sigmoid函数将原始输出结果映射到（，），从而完成概率估计。

　　逻辑回归可以更好地分离两类样本点，解决分类问题。

　　机器学习逻辑又回到了泰坦尼克号问题的背景:

众所周知“‘杰克和我’的故事”。

豪华游艇正在下沉，每个人都害怕逃跑，但是救生艇的数量是有限的。

”所以是否获救不是随机的，而是基于一些背景。

　　示例逻辑回归Kaggle泰坦尼克号灾难导入pandashpd#数据分析导入mpyasnp#科学计算frompandasimportSeries，DataFrameDataTrain=pdreadcsv（UserSwgwTitanicDataTrainCSv）数据训练示例逻辑回归Kaggle泰坦尼克号灾难数据训练如下:

示例逻辑回归Kaggle泰坦尼克号灾难训练数据共1名乘客，但某些属性数据不完整。

例如:

年龄属性只有1名乘客有客舱（客舱）记录，只有1名乘客是已知的示例逻辑回归Kaggle泰坦尼克号灾难我们使用以下方法来获得一些数字数据的分布:

平均值字段告诉我们，在一天结束时获救的乘客的平均年龄约为15岁（此时计算，会有轻微的记录丢失）案例逻辑回归:

休闲逻辑回归:

休闲逻辑回归

　　凯格尔泰坦尼克号灾难的例子逻辑回归可能有一些想法:

、不同等级的乘客可能与财富状况有关，最终救援的概率可能不同？

、年龄也必须对救援概率有影响。

毕竟，副队长早些时候说过“儿童和妇女优先”？

、与装运港有关吗？

也许来自不同港口的不同的人有不同的出身和地位？

凯格尔泰坦尼克号的灾难属性与救援结果的相关统计:

案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归凯格尔泰坦尼克号案例逻辑回归船舱失踪与否作为条件（虽然这部分信息的失踪可能不是未登记的失踪？

因此，这样做可能不合适。

）首先，根据是否有客舱信息的粗略粒度来查看幸存情况。

　　案例逻辑返回到卡格尔泰坦尼克号灾难的一般数据。

再看一遍之后，我对兴趣的属性也有了一个大致的了解。

　　下一步是什么？

处理和处理这些数据（特征工程过程）为机器学习建模做了一些准备。

示例逻辑回归卡格尔泰坦尼克号灾难舱:

根据舱是否有数据，将该属性处理为是和否两种类型。

　　年龄:

有几种常见的方法来处理默认值。

　　示例逻辑回归Kaggle泰坦尼克号灾难缺失数据常用的处理方法:

、如果缺失样本占总数的比例很高，我们可能会直接放弃作为特征相加，这反而会带来噪声影响最终结果。

　　、如果缺失值的样本适中，且该属性不是连续值特征属性（如类别属性），则NaN作为新类别添加到类别特征中。

　　、如果缺失值的样本适中，并且该属性是连续值要素属性，有时我们会考虑给出一个步长（例如，这里的年龄我们可以每隔一年考虑一个步长）,然后在离散化后将NaN作为类型添加到属性类别中。

　　、在某些情况下，缺失值的数量不是特别大，那么我们也可以尝试根据现有值来拟合数据补充。

　　scikitlearn中的RandomForest用于为Kaggle泰坦尼克号灾难的案例逻辑回归拟合缺失的年龄数据:

Kaggle泰坦尼克号灾难的案例逻辑回归Kaggle泰坦尼克号灾难的案例逻辑回归因为需要在逻辑回归建模中输入的特征都是数字特征，所以我们通常首先考虑类别类型的特征。

　　什么是因式分解？

例如，以小屋为例。

最初，一个属性维度被扩展为两个属性，RSQuoCuInYesSquao和RSQuoCuInnOrSquao，因为它的值可以是lsquoyes，rsquonorsquo。

　　船舱的原值为是，船舱下的值为船舱下的值，船舱下的值为船舱号下的值，船舱下的值为船舱下的值，船舱号下的值为卡格尔号泰坦尼克号灾难的逻辑回归实例。

熊猫模型用于在原始数据链上完成特征分解和拼接:

如果卡格尔泰坦尼克号灾难属性值之间的比例差异过大，将对收敛速度造成成千上万的破坏值！

甚至没有收敛！

首先，我们使用scikitlearn中的预处理模块进行缩放。

所谓的缩放实际上是表征内部的一些变化。

　　caselogisticRegressionKaggletitanic灾难取出所需的特征字段，并将其转换为numpy格式。

在scikitlearn中使用逻辑回归建模:

case逻辑回归Kaggle泰坦尼克号灾难测试数据也需要和traindata一样的预处理！

案例逻辑回归卡格尔泰坦尼克号灾难案例逻辑回归卡格尔泰坦尼克号灾难预测结果！

案例逻辑回归凯格尔泰坦尼克号灾难

展开阅读全文