国家自然科学奖推荐书式样.docx

资源描述

国家自然科学奖推荐书式样.docx

《国家自然科学奖推荐书式样.docx》由会员分享，可在线阅读，更多相关《国家自然科学奖推荐书式样.docx（39页珍藏版）》请在冰豆网上搜索。

国家自然科学奖推荐书式样.docx

国家自然科学奖推荐书式样

国家自然科学奖推荐书

（年度）

一、项目基本情况

学科评审组：

序号：

编号：

项目名称

中文名

统计因果推断

英文名

StatisticalCausalInference

主要完成人

耿直

推荐单位（盖章）

或推荐专家

中国数学学会

学科分类

名称

多元分析

代码

1101755

统计计算

代码

1101764

代码

所属科学技术领域

数理统计,多元统计,生物统计

任务来源

国家自然科学基金委

具体计划、基金的名称和编号：

项目完成人耿直1997年获教育部跨世纪优秀人才项目；1999-2002获国家杰出青年基金项目（）;1999-2003，主持国家基金委重点项目：

应用统计（），此后参与应用统计重点项目三次：

2005-2008（）、2010-2013（）、2014-2017（）。

承担了国家基金委面上项目（）：

<图模型的结构学习及因果推断>和（）<因果推断的统计方法>，负责973项目子项目（2003CB715902）<蛋白质网络拓扑结构及动力学研究>。

探讨因果推断的统计方法：

1）研究Simpson悖论、因果推断和不完全数据；2）提出替代指标悖论,又称中间变量悖论、工具变量悖论，研究不可忽略缺失数据机制和分析方法;3）研究网络图模型,探讨因果机制和因果网络的结构学习。

已呈交的科技报告编号：

项目起止时间

起始：

2000年1月1日

完成：

2015年12月1日

国家科学技术奖励工作办公室制

二、项目简介

（限1200字）

本项目研究因果作用的评价方法和因果网络的参数学习和结构学习方法，探讨因果推断在生物医学中的统计问题。

近年来，有关因果推断的研究成为了统计学最关注的热点研究方向之一。

我们在因果推断方向作出了一系列成果.关于著名的Yule-Simpson悖论,国内学者提出了一系列避免虚假相关性的条件和统计推断方法（JRSSB1992，1993，1995，2002，2006等）。

针对生物医学中现有的替代指标准则，国内学者提出了替代指标悖论（又称中间变量悖论、工具变量悖论）（JRSSB,2007,2010等）。

针对临床试验不依从情况，我们论证了因果作用的可识别性和统计推断方法，该成果为2009年Biometrics的唯一讨论文章。

在因果网络方面，我们提出了不完全数据学习因果网络的方法（ArtifficialIntelligengce,2006），将大规模网络的学习问题分解为小网络学习问题的递归分解学习方法，提出因果网络的主动学习方法，利用最少的干预次数确定因果方向的最佳干预试验方法（3篇论文发表在JMachLearnResearch2008）。

另外，我们参加了2008年WorldCongressonComput.Intelligence组织了因果挑战，并获得了BestOverallContributionAward。

我们在因果推断和因果机制方向的研究成果受到国际同行的关注，曾应邀在ICIAM2011做1小时大会报告、日本统计计算大会做1小时特别讲座、CSPS-IMS2005的55分钟特别讲座,IMS-APRM2012做了45分钟特邀报告等。

本项目探索因果推断，主要研究内容为：

1.替代指标（Surrogate）准则和替代指标悖论

因果推断中的替代指标的准则是因果推断和医学研究的重要问题。

Chen,Geng&Jia（2007）提出了“替代指标悖论”，指出Prentice的条件独立性准则、Rubin等的主分层准则和Lauritzen的强替代指标准则都不能避免替代指标悖论。

替代指标悖论也称为“中间变量悖论”和“工具变量悖论”，描述了统计推断中更广泛的问题。

该悖论向因果推断提出了一个挑战性问题。

我们（JRSSB2007,2010）针对该悖论提出了一致替代指标和严格一致替代指标的概念，给出了避免替代指标悖论发生的条件。

2.因果网络的结构学习和参数学习

Geng,Wang&Zhao（JMVA2005）提出了判断网络中V-结构的分解方法。

Xie,Geng&Zhao（AI2006）提出根据观测数据建立多因素之间因果网络的分解方法，将一个大网络的学习分解为若干小网络的学习。

Xie&Geng（JMLR2008）提出了因果网络结构学习的递归算法，Ma,Xie&Geng（2008）提出了有向边和无向边混合的链图结构学习的算法，He&Geng（2008）提出了因果网络的主动学习方法。

Geng,Wan&Tao（2000）提出了不完全数据情况下图模型参数估计的部分填补EM算法，证明了填补数据的数量越小，该算法的收敛速度越快。

Geng等（2003）和Geng&Li（2003）提出了部分填补Bayesian方法，论证了收敛速度优越性。

3.可压缩性和混杂因素

Ma,Xie&Geng（JRSSB2006）和Xie,Ma&Geng（SS2008）探讨了一般分布情况下因果作用的可压缩性。

Xie&Geng（SJS2009）研究了有向无环图的可压缩性。

Geng,Guo&Fung（JRSSB2002）探讨了混杂因素的定义和准则，除去了常用的可忽略性假定。

Geng&Li（SJS2002）基于不完全因果网络提出了判断混杂因素的条件。

Wang,Gengetal.（SS2007）探讨了调整非混杂因素对因果作用估计的影响。

Wang,Gengetal.（JSPI2009）提出了多混杂因素的判断准则和条件。

4.非随机缺失数据和不依从数据情况下因果作用的可识别性

不可忽略缺失机制情况下，因果作用的可识别性:

Chen,Geng&Zhou（Biometrics,DiscussionPaper,2009）探讨了不可忽略缺失数据和随机试验中不依从情况下因果作用的可识别性。

期刊主编推荐该论文为DiscussionPaper,是2009年Biometrics百余篇论文中唯一的一篇DiscussionPaper。

Ma,Geng&Hu（JMVA2003）探讨了纵向数据的不可忽略缺失机制情况下分布的可识别性。

三、重要科学发现

1.重要科学发现（限5页）

本项目研究内容为因果推断、混杂因素的判断条件、因果网络模型的参数和结构学习、中间因素和替代指标的准则、生物医学和流行病学中的统计方法，所属学科是数理统计。

因果推断根据观察性研究探索因果作用和因果关系，是统计学中的一个重要的难题。

自高尔顿（Galton,1888）提出相关系数和Pearson（1911）提出拟合优度卡方检验以来，统计学在相关（关系）方面的研究取得了丰硕的成果。

但是Yule-Simpson悖论（Yule,Biometrika1903;Simpson,JRSSB1951）的发现说明了相关不是因果，为统计学提出了挑战性的问题。

统计学在因果方面的研究步履艰难，正如Holland（1986，JASA）所说：

‘Problemsinvolvingcausalinferencehavedoggedattheheelsofstatisticssinceearlestdays.’尽管目前人们在自然科学和社会科学的研究中可以利用先进的设备获得大量的数据，但是人们认识自然和社会的最大障碍之一也许是缺乏从获得的大量数据中认知因果关系的方法。

Pearl（Causality,2009,2ndEd）:

“在过去的一个世纪中，许多发现被推迟是由于缺少描述因果的数学语言。

”现在因果推断主要采用两种数学模型：

潜在结果模型（Neyman,1923;Rubin,1974）和因果网络模型（Pearl,2000；Spirtesetal.2000）。

我们研究这两种因果模型，探讨因果作用的可识别性和因果网络的学习。

主要创新点和贡献如下：

1）提出了替代指标悖论，探讨了替代指标的准则（多元统计1101755；代表性论文JRSSB2007，JRSSB2010,StatMed2011等）

在很多科学研究中终点指标（Endpoint）的观测非常困难、代价高或时间长。

所以，常需要寻找替代指标（Surrogate）观测。

例如，临床试验评价治疗AIDS病药物，常用CD4作为替代指标，而难以用10年生存期的终点指标评价疗效。

因此确定替代指标的准则是因果推断和医学临床试验的重要问题。

目前已经提出了很多替代指标的准则，华盛顿大学Prentice院士（Statist.Med.,1989）提出了替代指标的条件独立性准则，称为统计替代指标，该论文成为这个刊物被引用最高的论文。

Prentice准则已经被临床疗效评价广泛使用。

哈佛大学Rubin院士等人（FrangakisandRubin，Biometrics,2002；Rubin，SJS,2004）发现统计替代指标不满足因果必要性（因果必要性：

处理对替代指标没有因果作用，则处理对终点指标没有因果作用）。

他们对Prentice准则进行了批判，提出了主分层替代指标的准则。

牛津大学统计系主任Lauritzen（SJS,2004）利用因果网络提出了强替代指标的准则，比主分层准则更严格地描述了替代指标与终点指标的因果路径的关系。

我们（JRSSB2007&2010;StatistMed,2011）发现Prentice统计替代指标准则、Rubin主分层准则和Lauritzen强替代指标准则都存在一个严重的问题，即用这些替代指标可能会得出与事实相悖的结论，这就是我们（JRSSB2007）提出的“替代指标悖论（SurrogateParadox）”：

治疗T对替代指标S有正的平均因果作用（ACE），这些替代指标S对终点指标T也有正的因果作用，但是，该治疗T对终点指标Y有负的因果作用。

该悖论可以表示为

这个发现说明了目前的几种替代指标准则都存在严重的问题。

Moore（DeadlyMedicine,1995）报道过著名的医药临床的惨案事件，描述了将抑制心律失常作为降低猝死的替代指标，最终发现上市的药物不但不能降低，反而增加了猝死的比率，导致数万人死于这类药物。

&（2010,Surrogateendpoints:

hopesandperils）对判断替代指标的准则提出了挑战问题，指出我们（JRSSB2007）的方法和Frangakis&Rubin的主分层替代指标是建立在因果推断基础上的新方法，是一个有前景的方法。

哈佛大学VanderWeele（2011）引用我们（JRSSB2007&2010）提出的SurrogateParadox对Frangakis&Rubin的主分层替代指标提出了质疑和批评，他指出：

However,identificationisnottheonlydifficultywithaprincipalstratificationapproachtotheanalysisofsurrogateoutcomes.Chen,Geng&Jia（2007）andJu&Geng（2010）notethataprincipalsurrogateasdefinedbyFrangakisandRobin（2002）doesnotavertthesocalled“surrogateparadox.”Thatistosay,avariableSmaybeaprincipalsurrogateandthetreatmentmayhaveapositiveeffectonthesurrogateandthesurrogatemayhaveapositiveeffectontheoutcomebutitmaystillbethecasetheeffectofthetreatmentontheoutcomeisnegative!

Chenetal.（2007）andJuetal.（2010）discussconditionsbeyond“principalsurrogacy”thatensurethatthesurrogateparadoxisavoided.

替代指标悖论也可称为“中间变量悖论”，描述了统计推断中更广泛的问题。

还原论的方法将整体分解为局部，综合局部得到的结论推断出整体的结论。

但是该悖论指出了综合局部统计结论得出整体统计结论将在原理上遇到本质的困难和问题。

该悖论向统计推断和因果推断提出了一个新的挑战性问题。

尽管人们在科学研究中积累了大量利用统计方法得到的结论和知识，但是如何综合这些统计结论，必须谨慎。

我们（JRSSB2007）提出了替代指标悖论，进一步提出了一致替代指标和严格一致替代指标的概念。

为了保证处理对替代指标的平均因果作用与处理对终点指标的平均因果作用的正负方向的一致性，我们利用因果网络的方法，给出了一致替代指标和严格一致替代指标的充分条件。

我们（JRSSB2010）发现尽管一致替代指标能够避免平均因果作用的悖论现象，但是避免不了分布因果作用的悖论现象，分布因果作用比平均因果作用能更细致刻画因果作用。

针对连续和有序离散变量的分布因果作用，我们提出了利用替代指标定性地评价处理对终点指标评价的充分条件，论证了在更广义的线性方程组模型下中间变量作为替代指标不会出现替代指标悖论，还给出了非参数模型下替代指标的准则。

我们（Wuetal.2011,StatMed）进一步提出了在处理对终点有直接作用的情况下避免替代指标悖论的充分条件和充要条件。

通常一个替代指标不能切断所有处理变量到终点变量的因果路径，这篇论文放松了无其他因果路径的假定，更加符合实际应用。

更重要地，与JRSSB2007和2010的结果不同，该论文给出的条件是基于关联度量的，如果在以前的临床试验中曾观测过终点指标的话，这些条件是可以用数据检验的。

证明了：

当替代指标S服从单参数指数族分布时，治疗T对替代指标S的因果作用的正负号等于治疗T对终点指标Y的因果作用的正负号。

即，不但治疗对替代指标有正（负或零）作用蕴含治疗对终点指标有正（负或零）作用，而且治疗对终点指标有正（负或零）作用也蕴含治疗对替代指标有正（负或零）作用。

哈佛大学VanderWeele（2013,Biometrics,讨论文章）详细介绍和讨论了我们有关替代指标悖论的成果（Chen,Geng&Jia,2007,JRSSB;Ju&Geng,2010,JRSSB;Wu,He&Geng,2013,StatMed）。

在他的论文中用了两个章节介绍了我们的成果，文中写到：

“Sections2and3summarizetheresultsofChenetal.（2007）andJuetal.（2010）onconsistentsurrogatesandthenextendtheirresultsfurthertoallowformoregeneralsettingsandtoprovideacharacterizationofconditionswhicharenecessaryforthesurrogateparadoxtooccur（analogously,aresufficienttoavoidit）.Theconditionsandtheresultsofthearticleareimportantbecausetheyallowinvestigatorstopredictthedirectionoftheeffectofthetreatmentontheoutcomesimplyfromthedirectionoftheeffectofthetreatmentonthesurrogate.”

2）因果网络的结构学习和参数学习（统计计算1101764；2篇JMLR2008,AI2006,SJS2000和1篇专著中的论文等）

因果网络和贝叶斯网络在计算机科学、医学和流行病学、生物信息、模式识别等很多领域有广泛的应用。

挖掘高维数据学习众多因素之间的因果网络和贝叶斯网络是一个统计学和机器学习领域中的重要难题和热点研究问题。

国际机器学习的核心刊物JMachineLearningResearch组织了专刊，见网页：

。

另外，2008年WorldCongressonComputationalIntelligence（2008WCCI）国际会议组织了因果挑战（CausalChallengeCompetition）。

从海量数据中挖掘因果关系，进行外部干预环境下的预测是一个因果推断和计量经济学中的挑战问题。

与传统的基于相关关系的预测不同，基于因果关系的预测具有外延性，可用于在外部干预情况下，待预测的环境与建模用的历史数据的环境不同情况下的预测，详见2008WCCI因果挑战和诺贝尔经济奖获得者Heckman（InternatStatistReviewe,2008,76,1-27）的论文:

EconometricCausality.

目前很多关于高维数据学习网络图模型的方法都是研究无向图的问题，不能描述因果关系。

尽管有一些有向图的学习方法，但是这些方法随着结点数的增加，有向图的个数指数上升，网络结构的学习变得非常复杂。

有向图结构学习的IC算法和IP算法（Pearl,2009;Spirtesetal.2000）在高维数据情况下计算复杂性和统计检验功效等方面都有困难。

我们（AI2006）提出利用不完全数据学习有向图的方法。

我们（Xie&Geng,JMLR2008;Ma,Xie&Geng,JMLR2008）提出大规模网络学习分解为小规模网络学习的递归学习方法。

我们（SJS2000）提出局部缺失数据填补EM算法，并应用于图模型参数学习。

因果网络学习的另一个主要困难是仅利用观测数据不能完全确定变量之间的因果方向。

我们（He&Geng,JMLR2008）提出最佳干预试验设计的主动学习方法，设计最少干预试验次数，确定因果网络中所有无向边的因果方向。

我们（AI2006）提出了有向非循环图的分解学习算法。

当数据来自不同的研究，观测的变量集合可能是不同的。

针对具有佷多变量的统计调查，Little&Rubin（2002）,Rassler（2002）提出file-matchingSplit和Splitquestionnairesurveysampling方法，各个调查数据库有不同的变量集合。

我们探讨了利用不完全观测数据集合进行网络结构的分解学习算法，提出用超图的每一条超边表示一个观测变量集合，利用超图结构分解，进行局部网络学习的方法。

该算法建立了多个数据库进行网络结构学习的理论和方法。

我们从理论上论证了该方法的正确性，并用模拟对算法进行了比较和评价。

Lietal.（IntJAI2008）介绍了我们的方法，Liuetal.（AI2011）在我们的基础上进一步探讨了分解算法（见他引论文5）。

我们（Xie&Geng,JMLR2008）提出了将一个大网络的结构学习递归分解为若干小网络的结构学习递归方法。

在该算法中，首先构造一个初步的无向网络；然后，根据得到的无向网络将一个大的变量集合分解成两个有重叠的变量集合，重叠部分称为分离集，它将变量集合分为两个条件独立的变量集合；再对两个分解得到的变量集合重复该分解，直至不可分解为止；在每个不可分解的变量集合进行局部图的结构学习；最后将这些局部网络图进行合并、修正和定向；最终得到完整的等价类因果网络。

我们从理论上论证了这个递归分解算法能够得到正确的网络。

该分解算法能够有效地利用独立性，降低了网络算法的计算复杂性，并能够提高统计推断的功效。

Dunsonetal.（JASA2009,p1042）指出我们的递归方法是一个有效的方法，应用于多元属性数据Bayes模型。

我们（Ma,Xie&Geng,JMLR2008）提出了链图学习的算法，链图比有向网络更复杂，链图包含有无向边和有向边的混合图，无向边描述变量之间相互影响的关系。

目前，关于因果网络的学习，有观测数据和试验数据的学习方法，但是，还没有干预试验设计的方法。

我们（He&Geng,JMLR2008）提出了最佳干预试验的主动学习方法，对不能确定因果方向的网络图设计最佳干预方案。

在最小干预的情况下，确定所有无向边的因果方向。

根据观察性研究的数据，常不能完全确定因果方向，学习得到的因果等价类网络含有很多不能确定因果方向的无向边。

我们提出了几种最佳干预的设计方法。

一种是成批最佳干预一个最小变量集合使得所有无向边都能同时确定因果方向的方法。

另外，两种是序贯最佳干预设计，一种序贯方法是选择一个在最大熵意义下的最佳变量进行干预，另一种序贯方法是选择一个变量，使得干预该变量得到的所有可能结果中最大的网络个数集合最小；这两种序贯干预方法根据每次干预的结果，逐步选择下一个最佳变量进行干预，最终确定所有因果方向。

Spirtes（JMLR2010,p1657，见附件他引论文）和Daly（KnowlEngRev2011）介绍了我们的方法，Spirtes（2010）在OpenQuestions中提出组合试验数据和观察数据是因果模型的重要研究问题。

我们（Yin,Geng,etal.2008）参加了2008WCCI的因果挑战。

该挑战提出在外部干预情况下进行预测的重要问题。

这个问题的困难在于两个变量有相关关系，但是外部干预其中一个变量，另一个变量是否会跟着改变？

例如，公鸡打鸣与太阳生起有很强的相关关系，但是人为干预阻止公鸡打鸣，不能阻止太阳生起。

如果发现某个基因与癌症有很强的相关，抑制该基因的表达是否能预防癌症的发生？

该挑战给出了3个实际数据集合（生物芯片数据，社会经济数据，医药研发数据），为了评价方法的性能，还在数据中设置了测试变量。

针对有外部干预情况，我们提出了新的预测方法。

首先从数据发现因果关系，构建因果网络或者构建局部因果网络，然后根据因果关系进行预测。

为了预测干预某个变量X将如何影响目标变量Y，我们不必构建完整的因果网络，提出了只在局部就可以发现目标变量Y的原因变量和发现结果变量的逐步学习方法。

采用传统的变量选择方法只能得到目标变量Y的相关变量集合（MarkovBlanket）X,使得给定X后其他变量与目标变量不相关，但是不能识别哪些变量是原因，哪些是结果，因此不能根据变量集合X对目标Y进行干预预测。

我们获得了BestOverallContribution奖，因而该竞赛没有再发BestPaper奖。