1、机器学习与空间统计学课程日程安排机器学习与空间统计学课程日程安排地点:清华大学伟清楼610 时间:2011.5.23-5.27 (机器学习) 2011.5.30-6.3 (空间统计)主办方:地球系统数值模拟教育部重点实验室 清华大学地球系统科学研究中心课程概述此课程内容涵盖机器学习和空间统计学,主要目的在于让学员深入理解常用机器学习方法以及对应用前景广阔的空间统计学有初步了解并且能够付诸实际应用。课程的要点在于算法及其实践;此外也会涉及一些必要的理论知识以便学员能够更加深入地理解算法,这也将会对学员日后设计新的算法有较大的帮助。由于机器学习内容广泛近年来发展迅速以及考虑到遥感领域的实际需要,同
2、时为了保证课程学习效果,我们将重点讨论机器学习中的分类方法, 相信学员们会触类旁通举一反三。课程包括讲课,阅读任务,以及课程项目。我们鼓励学员自带课题作为课程项目。课程项目的中心目的在于为学员提供消化课程内容以及实践和科研的机会。课程安排为机器学习一个星期,空间统计学三天,最后两天为课程项目演示以及诊断。我们衷心希望每一个学员都有最大的收获。课程概述面向全国高等院校和科研机构的相关专业,招收在读学生或科研人员。参考书目及文献1. T. Hastie, R. Tibshirani and J. Friedman (2001). The Elements of Statistical Learni
3、ng: Data Mining, Inference, and Prediction.2. V. N. Vapnik (1998). Statistical Learning Theory.3. S. Boyd and L. Vandenberghe (2004). Convex Optimization.4. M. S. Bartlett (1975). The Statistical Analysis of Spatial Pattern.5. B. D. Ripley (2004). Spatial Statistics.6. N. Cressie (1993). Statistics
4、for spatial data.7. 课程大纲中提及的文献.机器学习日程安排第一天 : 2011.5.23 (周一)7:00-9:00学员注册:清华大学伟清楼610室9:00-10:301. 机器学习简介 1.1. 什么是机器学习 (分类,聚类,排名等) 1.2. 分类问题1.2.1. 定义1.2.2. 性能衡量1.2.3. 贝叶斯决策1.2.4. 参数选取 (交叉验证) 1.3. 机器学习理论 (算法收敛性,函数空间复杂度与调控,算法一致性) 1.4. 主要数学与计算工具 1.4.1. 概率统计 (依概率收敛,大数定律,损失函数,一致性) 1.4.2. 矩阵理论 (特征值,谱分析,各种范数
5、) 1.4.3. 优化算法 (凸优化,牛顿法,各种梯度下降算法) 1.5. 遥感中的灰度协频率矩阵 (后续讲座会多次用到)10:45-12:002. 机器学习旧石器时代 2.1. 费歇尔线性区分算法 2.2. K-近邻法 (KNN) 2.3. 对数变换回归法13:30-14:45 2.4. 神经网络 2.4.1. 定义 2.4.2. 后向反馈算法以及特性 2.4.3. 手写体识别实例 (Le Cann et al 1998)15:00-17:00实习第二天 :2011.5.24 (周二)9:00-10:303. 支持向量机 (SVM) 3.1. 问题数学化和算法 3.1.1. 最大类间距 (软
6、类间距, Cortes and Vapnik 1995) 3.1.3. 两阶优化算法 (对偶问题,KKT条件) 3.2. SVM理论 3.2.1. 表示定理 3.2.2. 一致性理论 3.2.3. 吉洪诺夫调控 3.2.4. 关于替代损失函数的一个结论10:45-12:00 3.3. 核函数 3.3.1. 例子 3.3.1.1. 线性点积核 3.3.1.2. 高斯核 3.3.1.3. 字符串核 3.3.2. 核函数的复合 3.3.3. 摩斯定理 3.3.4. 可再生希尔伯特空间 3.4. 应用举例 3.3.1. 美国标准局手写体数字识别 3.3.2. 遥感图像分类13:30-14:45 3.5
7、. 计算问题 3.4.1. 逐次最小优化算法 (Platt 1998) 3.4.2. SVM-Light 软件包 (Joachins 1999) 3.4.3. Libsvm 软件包 (Chang and Lin 2001) 3.6. 各种SVM变体 (-学习法,-SVM等)15:00-17:00实习第三天 :2011.5.25(周三)9:00-10:304. 提升学习机 (Boosting) 4.1. 产生背景 4.2. AdaBoost算法 (Freund and Schapire 1995) 4.2.1. 算法描述与特性 4.2.2. 非随机版本 (Breiman 1997)10:45-1
8、2:00 4.3. 关于提升学习机的一些现代观点 4.3.1. 指数损失函数最小化 (Breiman 1997) 4.3.2. 自适应对数变换回归 (Friedman et al 1998) 4.3.3. 函数空间梯度下降优化13:30-14:45 4.4. 关于提升学习机的一些理论 4.4.1. 类间距理论 (Schapire, Freund, Bartlett and Lee 1997) 4.4.2. 各种调控法及其一致性 4.5. 应用举例 4.5.1. 人脸识别 (Viola and Jones 2001) 4.5.2. 遥感图像分类15:00-17:00实习第四天 :2011.5.2
9、6 (周四)9:00-10:305. 随机森林算法 (RF) 5.1. 基于决策树的分类器 5.2. 再抽样聚合器 (Bagging, Breiman 1996) 5.3. RF 算法 (Breiman 1999)10:45-12:00 5.4. 随机森林算法变体 5.4.1. 随机子空间算法 (Ho 1998) 5.4.2. 完美随机森林算法 (Cutler and Zhao 2001) 5.4.3. 纯随机森林算法 (Biau, Devroye and Lugosi 2008) 5.5. 随机森林理论 5.5.1. 分层近邻点集 (Lin et al 2005) 5.5.2. 一致性 (B
10、iau et al 2008)13:30-14:45 5.6. 实践考虑 5.6.1. R 语言软件包 5.6.2. 参数调节 5.6.3. 学员实践经验分享15:00-17:00实习第五天:2011.5.27 (周五)9:00-10:306. 突破现有算法 6.1. 数据分布结构特性的使用 (算法设计或函数类调控) 6.1.1. 稀疏性 6.1.1.1. Lasso (Tibshirani 1996) 6.1.1.2. 聚合Lasso (Tibshirani et al 2005) 6.1.2. 不变性 6.1.2.1. 切向距离 (Simard, Le Cann et al 1998) 6
11、.1.3. 光滑性 6.1.3.1. 光滑样条 6.1.3.2. 近邻图拉普拉斯 6.1.4. 连续性 6.1.4.1. 快速谱聚类 (Yan, Huang and Jordan 2009)10:45-12:00 6.2. 应用领域知识的使用 6.2.1. 数据分布特性的一个推广 6.2.2. 肿瘤图片分析中的图像块辅助特征选取 (Yan et al 2011) 6.3. 模拟人类学习机制构造机器算法 6.3.1. 提升学习机 6.3.2. 协同训练13:30-14:45 6.4. 已有算法推广与优化 6.4.1. 从Ridge回归到 Lasso 回归等 6.4.2. 从SVM到 -SVM,
12、-学习法 6.4.3. 用胡伯损失函数替代已有损失函数15:00-17:00实习 空间统计学日程安排第一天:2011.5.30 (周一)9:00-10:301. 空间统计学简介 1.1. 空间统计学定义 (关于空间上随机过程的统计理论,方法与应用) 1.1.1. 地理统计学 (连续空间上的连续过程) 1.1.1.1. 应用 (采矿,空气质量评估,水文调查等) 1.1.2. 空间点过程 (连续空间上的点过程) 1.1.2.1. 应用 (植被位置分布,传染病例分布等) 1.1.3. 格点数据分析 (格点上的随机过程) 1.1.3.1. 应用 (农业试验,遥感图像分析等) 1.2. 数学与计算工具
13、1.2.1. 随机过程,自相关分析与谱理论 1.2.2. 高斯过程,泊松过程,考克斯过程与点过程 1.2.3. 马尔可夫随机场, 蒙特卡罗 1.2.4. 曲线平滑与拟合10:45-12:002. 空间点过程 2.1. 点过程统计模型 2.1.1. 二维泊松过程 (个体随机) 2.1.1.1. 泊松聚类模型 2.1.1.2. 双随机泊松过程 (强度参数为连续平稳过程) 2.1.1.3. 特征函数与谱理论 (Bartlett 1964) 2.1.2. 吸引或排斥模型 (个体非随机) 2.1.2.1. 应用例子 (粒子场, 电线上鸟类的栖息点)2.1.2.2. 模型以模拟为主 (不易数学化) 2.1
14、.2.2.1. 硬核模型 (Hard-core, Matern 1960) 2.1.3. 点过程分析方法 2.1.3.1. 基于空间单元上的计数 (Quadrat) 2.1.3.2. 基于点之间的距离13:30-14:45 2.2. 空间随机性与聚类测试 2.2.1. 应用例子 (白血病与核辐射, 癌症与污染, 传染病源分析) 2.2.2. Quadrat测试 2.2.3. Mantel 矩阵随机测试 2.2.4. 各种基于近邻点距离的测试 2.3. 空间依赖性测试 2.3.1. K函数 2.4. 参数估计 (各种模型的强度参数) 2.4.1. 泊松过程 2.4.2. 双随机过程 (考克斯过程
15、)15:00-17:00实习第二天:2011.5.31 (周二)9:00-10:303. 地理统计学 3.1. 地理统计学简介 3.2. Variogram 3.2.1. 定义 3.2.2. 边际效应 (Sill, Nugget) 3.2.3. 各种模型 (线性,高斯,指数等) 3.2.4. Variogram 以及模型参数的估计10:45-12:00 3.3. Kriging 数据拟合与预测 3.3.1. 定义及模型 3.3.2. 线性Kriging3.3.2.1. 常规 Kriging 3.3.2.2. Universal Kriging 3.3.2.3. Cokriging13:30-1
16、4:45 3.3.3. 非线性Kriging 3.3.3.1. 基于标识的Kriging 3.3.3.2. 对数高斯 Kriging3.3.3.3. 泛高斯Kriging 3.3.4. 类别数据 Kriging 3.4. Ribeiro 和 Diggle 的地理统计学软件包15:00-17:00实习第三天:2011.6.1 (周三)9:00-10:304. 格点数据分析 4.1. 格点数据模型 4.1.1. 条件概率模型 4.1.1.1. Hammersley-Clifford 定理 4.1.1.2. 指数族模型 (Besag 1974)4.1.2. 联合概率模型 4.1.3. 马尔可夫随机场
17、10:45-12:00 4.2. 参数估计 4.2.1. 最大似然估计 4.2.2. 伪似然估计 (Besag 1975) 4.2.3. 基于近邻点相关结构的估计 (Besag 1974)13:30-14:45 4.3. 遥感图像纹理模型与分析 4.3.1. 基于自回归模型 4.3.2. 基于马尔可夫随机场 (Geman and Geman 1984) 4.3.3. 基于贝叶斯的图像分析方法 (Besag 1989) 4.3.4. 非参数模型 (Yan et al 2006, 2011)15:00-17:00实习第四天:2011.6.2 (周四)第五天:2011.6.3 (周五)9:00-11:00课题完善及答疑
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1