1、从ACM会议看中国大陆计算机科学与国外的差距从ACM会议看中国大陆计算机科学与国外的差距本文分析中国大陆学者在ACM各个会议中论文发表情况。希望以此了解中国在计算机学科的各个分支中所处的地位。找出那些分支是中国的强项,那些分支是中国的弱项,那些分支中国还处在空白状态。为计算机科学发展决策提供参考。 ACM名下的计算机专业会议涵盖了计算机科学的几个主要分支最高水平的会议。其中包括集成电路设计方面的DAC,ISSS,ICCAD会议,体系结构方面的ISCA和MICRO会议,超级计算方面的SC和ISC会议,程序语言方面的POPL,PPDP会议,操作系统方面的SOSC会议,数据库方面的SIGMOD和PO
2、DS等等。尽管还有许多重要的会议不在ACM会议集之中,但是对ACM会议论文发表情况依然可以成为衡量一个国家计算机科学研究水平的重要依据。 这项研究工作是业余进行的,所以没有使用那些需要付费的论文数据库系统。研究方法是使用PERL程序直接从ACM网站4上抽取出所有的会议论文网页,再从这些网页中抽取出每篇论文第一作者所在单位和国别,然后用AWK程序计算每一种会议中各个国家的论文数,最后把各个会议中中国的论文数同其他国家的论文数进行比较。 由于一些文章的作者单位栏中没有包含国别,所以这项统计只是一个近似的结果。中国大陆的文章通常写明China,所以遗漏中国论文的情况很罕见。此外,我们把单位名中包含B
3、eijing,Pekin,Shanghai等关键字的记录都统计在中国论文内。中国台湾省和香港特区作者的单位名中有时也包含China,统计程序把这些记录都排除。本文中除特别说明之外,“中国论文”专指只中国大陆学者的论文。统计中,遗漏其他国家论文的情况相对多一些,比如加拿大多伦多大学有时不标明加拿大,因此,对其他国家论文数的统计可能偏少,但不会差的很远。美国的单位一般不含国名,因此目前程序还没有统计美国的论文总数。作为一个替代,程序统计了美国加州的论文数。程序运行结果表明,美国加州的论文数通常高于其他发达国家平均数的数倍。下面会看到,中国同美国加州的差距已经很大。 网络上抽取论文信息的程序日夜运行
4、整整一个星期,共收集了ACM173个会议总共八万多篇论文。这个收集工作包含了大部分ACM会议,个别只有一两年会议历史,尚无历史文档的会议没有统计在内。附录中列出在每个会议中中国的论文数,占总数百分比以及同国外的比较。 统计结果显示,在这173个会议中,中国论文超过100篇的会议有三个,它们是:会议 中国 占总数 美国 六个发达国家代号 论文数 百分比 加州 平均数AICPS 167 3.85% 136 174 ASPDAC 102 7.23% 161 47 MM 102 5.91% 174 58 上表中的中国论文数指中国大陆学者在该会议中历年发表的论文总和。为了比较,我们同时列出中国论文数占会
5、议论文总数的百分比,美国加州在该会议中的论文总数,六个发达国家(德,法,意,加拿大,澳大利亚和日本)论文总数的平均值。该表显示中国在这三个会议中的情况比较好,论文数超过或接近几个发达国家的平均水平。但是在ASPDAC和MM会议中只有美国加州论文数的2/3。 在上述三个会议中,AICPS是一大批会议的总和,其中有些是地区性会议,有些是近年的专业会议;ASPDAC是南亚地区的集成电路设计会议。虽然地区性会议不一定代表专业领域的最高水平,但是上述数据也表明中国在集成电路研究方面的活跃。在该会中,清华大学表现最为出色,论文数为56篇,占了中国论文数的一半以上。MM是国际多媒体会议,在这个会议上中国论文
6、数超过六个发达国家平均数几乎一倍,说明中国已在这一领域进入国际先进行列。在MM中国论文中,微软中国研究所36篇,清华27篇,其次是中国科大和浙大。 中国论文数在10篇到99篇之间的会议有8个,它们是:会议 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比 加州 平均数SIGGRAPH 10 2165 0.46% 190 44CSC 11 1150 0.96% 37 11VRST 12 281 4.27% 13 10CIKM 16 1014 1.58% 68 30ISSAC 17 714 2.38% 23 45SAC 23 2117 1.09% 84 76SIGIR 28
7、 1352 2.07% 50 36WWW 36 731 4.92% 97 25 其中互联网会议WWW和虚实体软件会议VRST的论文数超过论文总数的4%,也超过了六个发达国家的平均数。VRST中表现突出的是浙江大学,占了12篇论文中的7篇。其次是符号代数计算会议ISSAC,信息检索会议SIGIR以及信息和知识管理会议CIKM,中国论文数占总数的1.58%到2.38%之间。图像学和交互式系统会议SIGGRAPH虽然有10篇论文,但只占会议论文总数的0.46%,是发达国家平均数的1/4,是美国加州论文数的1/19。在这个领域中国同国际水准差距很大。CSC(计算机科学)和SAC(应用计算)两个会议从名
8、字上看难以归入专业会议,其水平需要内行专家来评价。 在上述“中国论文”中,有很大一批是微软中国研究院的论文,还有一些是中国研究单位同国外合作的成果。比如SIGGRAPH 的10篇论文中有9篇来自微软,另一篇文章是复旦大学同美国加州DAVIS 大学合作成果。微软中国的论文在WWW中占了9篇,在SIGIR中占了12篇。 如果按论文占会议总数的百分比排列,那么中国论文占论文总数2%以上的会议一共有13个:会议 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比 加州 平均数DOLAP 2 100 2.00% 0 4SIGIR 28 1352 2.07% 50 36Middlew
9、are 1 47 2.13% 4 1ISSAC 17 714 2.38% 23 45ASE 4 162 2.47% 6 6CF 3 108 2.78% 7 4WIDM 3 101 2.97% 4 3GRAPHITE 5 159 3.14% 0 5AICPS 167 4333 3.85% 136 174VRST 12 281 4.27% 13 10WWW 36 731 4.92% 97 25MM 102 1727 5.91% 174 58ASPDAC 102 1410 7.23% 161 47 除上面分析过的几个会议之外,其他几个会议规模比较小,其中每个会议中中国论文总数不到5篇。 这次分析的A
10、CM会议总共有173个,上面13个会议不到会议总数的8%。下面是按照中国论文占会议总数的百分比列出中国论文在ACM会议中的分布情况: 中国论文占会议 会议数 论文总数百分比 2% 13 1% 30 0% 76 = 0 97 上表显示,在97个ACM会议中,中国没有一篇论文,这些会议占了本次统计的ACM会议总数的56%。 下面对ACM会议的几个大方向做进一步的分析。 核心领域论文发表情况 一集成电路设计。 设计自动化会议(Design Automation Conference(DAC)是ACM在集成电路领域历史最悠久的会议。自1964年以来的42年中,该会议上共发表过的3281篇论文,其中中国
11、的论文只有9篇,仅占论文总数的0.27%。相比之下,法意德在该会议中的论文数分别为:43,36,99,高出中国4倍到10倍;南朝鲜和台湾的论文数为:36和56,高出中国大陆4倍到6倍;美国仅加州一地在该会议上的论文数就达673篇,高出中国七十几倍,中美间的差距之大几乎无法衡量。 在中国的9篇论文中,有6篇是同美国大学或公司合作的论文,3篇完全独立写成的文章全部是15年前写的。 值得指出的是,清华大学的论文占了9篇中的6篇。 下面是集成电路设计相关的几个主要会议上中国论文发表情况(南亚地区会议ASPDAC没包括在内):会议 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比
12、 加州 平均数CODES 0 398 0.00% 51 14ISSS 0 322 0.00% 53 14SBCCI 0 111 0.00% 6 5DATE 3 1414 0.21% 120 51DAC 9 3281 0.27% 673 59ICCAD 5 1483 0.34% 342 25EuroDAC 2 487 0.41% 48 26ISLPED 4 746 0.54% 116 17FPGA 5 459 1.09% 100 15ISPD 6 338 1.78% 88 5GLVLSI 7 368 1.90% 34 9总计 41 9296 0.44% 1625 235 在这些会议中,清华大学的
13、论文数为21篇,占中国论文数一半以上。显示出清华大学在集成电路研究方面的国内领先地位。尤其是在物理设计领域,清华占了6篇论文中的5篇。另外,复旦大学在FPGA领域比较突出,占了5篇论文中的3篇。 整体而言,中国在上述集成电路会议中的论文数不到六个发达国家平均数的1/5,相当于美国加州论文数的1/40。相比之下,中国在物理设计(ISPD)和可编程逻辑(FPGA)方面情况稍好,在系统设计(CODES,ISSS,SBCCI)方面的研究最差。其次是设计测试(DATE)和设计自动化(DAC,ICCAD,EuroDAC)。 下面是这几个会议的中文简称,开始年份和论文录取率情况。代号 中文简称 起始年 录取
14、率 CODES 软硬件协同设计 94 30%ISSS 系统综合 94 35% SBCCI 集成电路与系统设计 97 34%DATE 设计与测试 98 21% DAC 设计自动化 64 30% ICCAD 辅助设计 92 26% EuroDAC 欧洲设计自动化 90 无ISLPED 低功耗设计 95 32%FPGA 可编程逻辑 95 50%ISPD 物理设计 97 无FPGA 可编程逻辑 95 50%GLVLSI 大湖区集成电路 00 无 二。体系结构 在体系结构方面,中国的论文发表情况比集成电路更差。在有33年历史的计算机体系结构权威会议ISCA中,中国的论文数是零。 在微体系结构会议MICR
15、O上,中国有9篇论文,占论文总数的1.48%,可是这些论文都是在1994年之前的,大部分是在85年到88年之间所做,95年之后一篇论文也没有。仅从论文数量看,最近十年中国在体系结构方面的学术研究不但没有前进,反而出现倒退。这种情况可能同中国当前的“芯片热”有关,许多研究人员转向了芯片的产品开发,离开了体系结构的学术研究。另一个原因是有能力在这些重要会议上发表论文的学者转到了国外,比如在MICRO上发表了4篇论文的清华学者Bogong Su先生,现在在美国William Paterson 大学工作,总共发表了34篇论文。 下面是ACM会议中几个主要的体系结构有关的会议中,中国论文的发表情况:会议
16、 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比 加州 平均数ASPLOS 0 264 0.00% 41 2CASES 0 196 0.00% 28 4ISCA 0 992 0.00% 116 11PACT 0 67 0.00% 3 0SPAA 0 559 0.00% 56 18SC 1 1229 0.08% 143 16ICS 1 729 0.14% 46 20MICRO 9 608 1.48% 68 6Total 11 4644 0.24% 501 77 在这七个会议中,中国在五个会议中的论文数是空白。超级计算会议SC中唯一的一篇论文是北京基因组研究所的计算机应用
17、论文,不能算作体系结构方面的论文;另一个超级计算会议ICS的论文是计算所编译组同INTEL和DELWARE大学合作的论文;MICRO方面的9篇论文是10年前的论文。换句话说,中国在最近十年内,在ACM体系结构方面的论文是空白。 当然,这并不等于说中国在体系结构学术研究方面是空白。在ACM之外,还有相当一批重要的体系结构会议,比如ISCIS,HPCA,ICCD,ASAP等等。但是中国在ACM会议中的情况,毕竟反映出中国在体系结构方面研究力量的薄弱。另外,下表显示,ACM这几个会议都是论文竞争相当激烈的会议,尤其ASPLOS,ISCA和MICRO这几个历史长久的会议,录取率仅在20%,五篇论文中只
18、录取一篇。中国在这些会议中没有论文,至少说明中国缺乏高水平的研究工作。 下面是上述ACM体系结构会议的中文简称以及论文录取率等信息:代号 中文简称 起始年 录取率 ASPLOS 对语言和操作系统的体系结构支持 73 20%CASES 嵌入式系统编译,体系结构和综合 00 25%ISCA 体系结构 73 20%PACT 并行体系结构及编译技术 93 无SPAA 并行算法和体系结构 89 37%SC 超级计算 88 24%ICS 超级计算 89 30%MICRO 微体系结构 73 20% 三软件工程,数据库和人机界面。 在这个栏目下面,我们把软件工程,数据库,交互式系统,文档,超文本的会议都放在一
19、起。这种分类可能会有争议。但是从我们提供的数据中不难分析出各专门领域的情况。下面是归在此类的所有会议:代号 中文简称 起始年 录取率 ISSTA 软件测试与分析 73 20%SIGSOFT 软件工程基础 82 25%ICSE 软件工程 76 17%PODS 数据库系统原理 82 22%SIGMOD 数据管理 74 17%VLDB 超大规模数据库 82 无SIGIR 信息检索 71 20%SIGDOC 计算机文档 82 50%UIST 用户界面软件与技术 88 21%ICIS 信息系统 89 无IUI 智能用户界面 89 30%CHI 计算机系统中人的因素 77 20%DIS 交互式系统设计 9
20、5 无HT 超文本 87 40%SV 软件可视性 73 20% SSR 软件可重用性 95 43% SCM 软件配置管理(workshop) 89 无WOSP 软件与性能(workshop) 98 55% 在这些会议中ISSTA,SIGSOFT,ICSE是软件工程方面的主干会议,论文录取率在20%左右。在这三个会议中,中国的论文总数是6篇,占全部论文数的0.21%。其中SIGSOFT的三篇文章全部是北大的。ICSE中也有一篇北大文章。 SIGMOD和PODS是数据库方面的主要会议。前者录取率为35%,上面有9篇中国论文;后者录取率只有18%,该会议上唯一的一篇中国论文是重庆大学Ke Wang所
21、写的论文,但时间是17年前。 SIGIR信息检索会议是这批会议中中国论文最多的一个会议,中国共有28篇论文,占总数2%多。在这批论文中,微软占了12篇,其次是清华大学5篇,其中有2篇是同微软合作成果。 在用户界面会议方面,中国在IUI会上的论文占论文总数0.84%,这个比例在各个会议中占第二名。IUI的5篇中国论文中有3篇出自北京中科院。会议 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比 加州 平均数DIS 0 237 0.00% 20 3ISSTA 0 205 0.00% 18 3SCM 0 55 0.00% 4 1SIGDOC 0 607 0.00% 35 13
22、SSR 0 105 0.00% 8 3VLDB 0 146 0.00% 15 3CHI 6 4471 0.13% 595 97PODS 1 671 0.15% 75 18ICSE 3 1918 0.16% 129 70UIST 1 472 0.21% 80 15ICIS 1 432 0.23% 0 5HT 2 621 0.32% 57 17SIGSOFT 3 675 0.44% 50 21SIGMOD 9 1790 0.50% 223 35WOSP 1 164 0.61% 10 8IUI 5 595 0.84% 60 21SIGIR 28 1352 2.07% 50 36Total 60 14
23、516 0.41% 1429 369 在这17个会议中,中国在6个会议中尚处空白状态。另外,CHI的6篇文章有5篇是微软的,另外1篇来自IBM中国研究所。PODS上的文章是17年前的。所以,在最近17年中,中国实际上在8个软件会议中是空白。其他几个会议,除SIGIR 以外,论文数量占会议论文总数的百分之一以下。在软件工程这个领域中,中国论文数是六个发达国家平均数的1/6,是美国加州的1/23。 四操作系统,网络通讯和分布式计算。 在这个栏目下面我们很勉强地把操作系统会议SOSP,通讯会议COMM和分布是计算会议PODC放在一起。这几个领域不象其他行业那样有一大批相关的ACM会议。然而这几个会议
24、历史都很长,率取率也比较低。SOSP会议是一个有将近40年的操作系统会议,在此会议上中国论文一篇也没有。分布式计算会议PODC上也没有中国的论文。COMM上有两篇中国论文,一篇来自国防科大,另一篇来自南京通讯工程学院。国防科大的文章发表在2003年,当年的录取率仅为11%,几乎是10文章中挑选1篇;南京通讯工程学院Guo Chuanxiong的文章发表在2001年,当时的录取率为9%。代号 中文简称 起始年 录取率 SOSP 操作系统原理 67 18%COMM 计算机通讯的应用技术和体系结构 69 11%PODC 分布式计算原理 82 30%会议 中国 论文 中国论文 美国 六个发达国家代号
25、论文数 总数 占总数百分比 加州 平均数PODC 0 849 0.00% 75 13SOSP 0 331 0.00% 54 1COMM 2 817 0.24% 94 14Total 2 1997 0.10% 223 28 五图形学与多媒体 在虚拟实体会议VRST和多媒体会议MM上,中国的情况比较好,非常罕见的能够占到论文总数的4%-6%之间。VRST上的论文都是中国自己独立完成的,MM上虽然有32篇微软的论文,但中国自己的论文还是占了大多数。图形学本身的论文情况接近空白。SCG上唯一的一篇论文是明尼苏达大学同北京中科院合写的文章,SIGGRAPH 上有8篇文章出自微软,1篇出自IBM,另一篇是
26、复旦与美国DAVIS大学合作。 会议 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比 加州 平均数PVG 0 45 0.00% 5 1SCCG 0 114 0.00% 1 2SI3D 0 220 0.00% 13 1SCG 1 907 0.11% 72 28SIGGRAPH 10 2165 0.46% 190 44VRST 12 281 4.27% 13 10MM 102 1727 5.91% 174 58Total 125 5459 2.29% 468 144代号 中文简称 起始年 录取率PVG 并行和大规模数据可视性 99 无SCCG 图形学 73 无SI3D 交
27、互式3D图像 87 27%SCG 计算几何 85 35%SIGGRAPH 图像与交互式技术 74 无MM 多媒体 93 48%VRST 虚实体软件与技术 97 36% 六程序语言。 ACM集中了程序设计语言的许多重要会议,在这些会议的有关信息及中国论文发表情况见下面的两个表。代号 中文简称 起始年 录取率POPL 程序语言原理 73 20%OOPSLA 面向对象程序语言 86 19%PLDI 程序语言设计与实现 87 22%PPoPP 并行程序设计原理 90 30%PPDP 说明式语言与实现 00 46%ICFP 函数式语言 96 30%CGO 代码生成与优化 03 32%PEPM 部分求值和
28、基于语义的程序变换 91 50%LCTES 嵌入式系统的语言,编译和工具 95 26%会议 中国 论文 中国论文 美国 六个发达国家代号 论文数 总数 占总数百分比 加州 平均数LCTES 0 168 0.00% 13 3POPL 0 860 0.00% 58 16PPDP 0 142 0.00% 3 8OOPSLA 1 1205 0.08% 88 24ICFP 1 310 0.32% 5 9PLDI 2 495 0.40% 65 6PEPM 1 166 0.60% 2 6PPoPP 2 188 1.06% 24 2CGO 1 89 1.12% 4 0Total 8 3623 0.22% 26
29、2 74 POPL是历史最久,名望最高的会议,在这个会议的33年历史上,全中国没有一篇论文(包括中国大陆,香港和台湾)。面向对象语言OOPSLA,函数语言ICFP,语言设计与实现PLDI以及嵌入式系统语言和编译LCTES均属于语言方面有相当规模的高水平会议。PLDI上仅有的两篇论文来自INTEL中国软件中心,作者是普林斯顿大学博士毕业。ICFP和OOPSLA两个会议上各有一篇中国大陆论文, ICFP上的论文作者是软件所Chen Haiming。OOPSLA上唯一的中国论文作者是Yingliang Zhao,他署名的单位是西安交大和加拿大Regina大学。LCTES则没有中国大陆的论文。PPDP
30、是一个比较新的语言会议,没有中国论文。并行程序设计PPoPP是一个跨领域的会议,其中的一部分内容是并行语言。该会上有两篇中国论文,一篇来自INTEL上海软件中心,另一篇是中国科技大学与INTEL编译组合写。PEPM和CGO是语言领域内比较专门的两个方向,这两个会各有一篇中国论文。PEPM上的论文是一个在武汉大学(学习/工作?)的俄罗斯人的论文,CGO上的论文来自INTEL软件中心。 总体而言,在8篇论文中,INTEL占了5篇(包括与科大合作的一篇),外国人一篇,在中加两个单位同时工作的学者一篇。能够完全算做中国独立完成的论文只有软件所Chen Haiming在ICFP上的论文。 即使按8篇论文计算,中国在语言方面的论文也只有6个发达国家平均值的1/9,美国加州论文数的1/32。 总体分析 以上是ACM会议里几个比较大的研究领域中中国论文的分布情况。其他研究领域不再一一分析。附录中列出了每个会议的情况。 在本次统计的173个ACM会议(包括会议集)中,中国大陆第一作者的论文总共有713篇,占论文总数83227的0.83%。相比之下,六个发达国家的平均数为1926篇,美国加州的论文数为7481篇。在713篇中国论文中,大约有90篇是外国研究单位的论文,其中微软73篇,INTEL有9篇,IBM有6篇,此外还有一部分是中外合作论文,完全由中国独立完成的论文估计
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1