机器学习与空间统计学课程日程安排Word文档下载推荐.docx
《机器学习与空间统计学课程日程安排Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《机器学习与空间统计学课程日程安排Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
1.T.Hastie,R.TibshiraniandJ.Friedman(2001).TheElementsofStatisticalLearning:
DataMining,Inference,andPrediction.
2.V.N.Vapnik(1998).StatisticalLearningTheory.
3.S.BoydandL.Vandenberghe(2004).ConvexOptimization.
4.M.S.Bartlett(1975).TheStatisticalAnalysisofSpatialPattern.
5.B.D.Ripley(2004).SpatialStatistics.
6.N.Cressie(1993).Statisticsforspatialdata.
7.课程大纲中提及的文献.
机器学习日程安排
第一天:
2011.5.23(周一)
7:
00-9:
00
学员注册:
清华大学伟清楼610室
9:
00-10:
30
1.机器学习简介
1.1.什么是机器学习(分类,聚类,排名等)
1.2.分类问题
1.2.1.定义
1.2.2.性能衡量
1.2.3.贝叶斯决策
1.2.4.参数选取(交叉验证)
1.3.机器学习理论(算法收敛性,函数空间复杂度与调控,算法一致性)
1.4.主要数学与计算工具
1.4.1.概率统计(依概率收敛,大数定律,损失函数,一致性)
1.4.2.矩阵理论(特征值,谱分析,各种范数)
1.4.3.优化算法(凸优化,牛顿法,各种梯度下降算法)
1.5.遥感中的灰度协频率矩阵(后续讲座会多次用到)
10:
45-12:
2.机器学习旧石器时代
2.1.费歇尔线性区分算法
2.2.K-近邻法(KNN)
2.3.对数变换回归法
13:
30-14:
45
2.4.神经网络
2.4.1.定义
2.4.2.后向反馈算法以及特性
2.4.3.手写体识别实例(LeCannetal1998)
15:
00-17:
实习
第二天:
2011.5.24(周二)
3.支持向量机(SVM)
3.1.问题数学化和算法
3.1.1.最大类间距(软类间距,CortesandVapnik1995)
3.1.3.两阶优化算法(对偶问题,KKT条件)
3.2.SVM理论
3.2.1.表示定理
3.2.2.一致性理论
3.2.3.吉洪诺夫调控
3.2.4.关于替代损失函数的一个结论
3.3.核函数
3.3.1.例子
3.3.1.1.线性点积核
3.3.1.2.高斯核
3.3.1.3.字符串核
3.3.2.核函数的复合
3.3.3.摩斯定理
3.3.4.可再生希尔伯特空间
3.4.应用举例
3.3.1.美国标准局手写体数字识别
3.3.2.遥感图像分类
3.5.计算问题
3.4.1.逐次最小优化算法(Platt1998)
3.4.2.SVM-Light软件包(Joachins1999)
3.4.3.Libsvm软件包(ChangandLin2001)
3.6.各种SVM变体(
-学习法,
-SVM等)
第三天:
2011.5.25(周三)
4.提升学习机(Boosting)
4.1.产生背景
4.2.AdaBoost算法(FreundandSchapire1995)
4.2.1.算法描述与特性
4.2.2.非随机版本(Breiman1997)
4.3.关于提升学习机的一些现代观点
4.3.1.指数损失函数最小化(Breiman1997)
4.3.2.自适应对数变换回归(Friedmanetal1998)
4.3.3.函数空间梯度下降优化
4.4.关于提升学习机的一些理论
4.4.1.类间距理论(Schapire,Freund,BartlettandLee1997)
4.4.2.各种调控法及其一致性
4.5.应用举例
4.5.1.人脸识别(ViolaandJones2001)
4.5.2.遥感图像分类
第四天:
2011.5.26(周四)
5.随机森林算法(RF)
5.1.基于决策树的分类器
5.2.再抽样聚合器(Bagging,Breiman1996)
5.3.RF算法(Breiman1999)
5.4.随机森林算法变体
5.4.1.随机子空间算法(Ho1998)
5.4.2.完美随机森林算法(CutlerandZhao2001)
5.4.3.纯随机森林算法(Biau,DevroyeandLugosi2008)
5.5.随机森林理论
5.5.1.分层近邻点集(Linetal2005)
5.5.2.一致性(Biauetal2008)
5.6.实践考虑
5.6.1.R语言软件包
5.6.2.参数调节
5.6.3.学员实践经验分享
第五天:
2011.5.27(周五)
6.突破现有算法
6.1.数据分布结构特性的使用(算法设计或函数类调控)
6.1.1.稀疏性
6.1.1.1.Lasso(Tibshirani1996)
6.1.1.2.聚合Lasso(Tibshiranietal2005)
6.1.2.不变性
6.1.2.1.切向距离(Simard,LeCannetal1998)
6.1.3.光滑性
6.1.3.1.光滑样条
6.1.3.2.近邻图拉普拉斯
6.1.4.连续性
6.1.4.1.快速谱聚类(Yan,HuangandJordan2009)
6.2.应用领域知识的使用
6.2.1.数据分布特性的一个推广
6.2.2.肿瘤图片分析中的图像块辅助特征选取(Yanetal2011)
6.3.模拟人类学习机制构造机器算法
6.3.1.提升学习机
6.3.2.协同训练
6.4.已有算法推广与优化
6.4.1.从Ridge回归到Lasso回归等
6.4.2.从SVM到
-SVM,
-学习法
6.4.3.用胡伯损失函数替代已有损失函数
空间统计学日程安排
第一天:
2011.5.30(周一)
1.空间统计学简介
1.1.空间统计学定义(关于空间上随机过程的统计理论,方法与应用)
1.1.1.地理统计学(连续空间上的连续过程)
1.1.1.1.应用(采矿,空气质量评估,水文调查等)
1.1.2.空间点过程(连续空间上的点过程)
1.1.2.1.应用(植被位置分布,传染病例分布等)
1.1.3.格点数据分析(格点上的随机过程)
1.1.3.1.应用(农业试验,遥感图像分析等)
1.2.数学与计算工具
1.2.1.随机过程,自相关分析与谱理论
1.2.2.高斯过程,泊松过程,考克斯过程与点过程
1.2.3.马尔可夫随机场,蒙特卡罗
1.2.4.曲线平滑与拟合
2.空间点过程
2.1.点过程统计模型
2.1.1.二维泊松过程(个体随机)
2.1.1.1.泊松聚类模型
2.1.1.2.双随机泊松过程(强度参数为连续平稳过程)
2.1.1.3.特征函数与谱理论(Bartlett1964)
2.1.2.吸引或排斥模型(个体非随机)
2.1.2.1.应用例子(粒子场,电线上鸟类的栖息点)
2.1.2.2.模型以模拟为主(不易数学化)
2.1.2.2.1.硬核模型(Hard-core,Matern1960)
2.1.3.点过程分析方法
2.1.3.1.基于空间单元上的计数(Quadrat)
2.1.3.2.基于点之间的距离
2.2.空间随机性与聚类测试
2.2.1.应用例子(白血病与核辐射,癌症与污染,传染病源分析)
2.2.2.Quadrat测试
2.2.3.Mantel矩阵随机测试
2.2.4.各种基于近邻点距离的测试
2.3.空间依赖性测试
2.3.1.K函数
2.4.参数估计(各种模型的强度参数)
2.4.1.泊松过程
2.4.2.双随机过程(考克斯过程)
第二天:
2011.5.31(周二)
3.地理统计学
3.1.地理统计学简介
3.2.Variogram
3.2.1.定义
3.2.2.边际效应(Sill,Nugget)
3.2.3.各种模型(线性,高斯,指数等)
3.2.4.Variogram以及模型参数的估计
3.3.Kriging数据拟合与预测
3.3.1.定义及模型
3.3.2.线性Kriging
3.3.2.1.常规Kriging
3.3.2.2.UniversalKriging
3.3.2.3.Cokriging
3.3.3.非线性Kriging
3.3.3.1.基于标识的Kriging
3.3.3.2.对数高斯Kriging
3.3.3.3.泛高斯Kriging
3.3.4.类别数据Kriging
3.4.Ribeiro和Diggle的地理统计学软件包
第三天:
2011.6.1(周三)
4.格点数据分析
4.1.格点数据模型
4.1.1.条件概率模型
4.1.1.1.Hammersley-Clifford定理
4.1.1.2.指数族模型(Besag1974)
4.1.2.联合概率模型
4.1.3.马尔可夫随机场
4.2.参数估计
4.2.1.最大似然估计
4.2.2.伪似然估计(Besag1975)
4.2.3.基于近邻点相关结构的估计(Besag1974)
4.3.遥感图像纹理模型与分析
4.3.1.基于自回归模型
4.3.2.基于马尔可夫随机场(GemanandGeman1984)
4.3.3.基于贝叶斯的图像分析方法(Besag1989)
4.3.4.非参数模型(Yanetal2006,2011)
第四天:
2011.6.2(周四)
2011.6.3(周五)
00-11:
课题完善及答疑