黄光斌简历
这两天,媒体对这篇报道的炒作没少;我个人对这份报告中的两张趋势图特别感兴趣。报告显示,从2013到2015,SCI中提及“深度学习”的文章数量增加了约6倍,同时强调“从文章数量来看,美国不再是世界第一。”
美国不是世界第一?谁是世界第一?请看报告中的两个趋势图:
1.
上图显示了SCI收录的文章中每年引用“深度学习”或“深度神经网络”的文章数量的变化趋势,并按国家进行了区分。数据本身是从科学网的核心数据库中查询的。
2.
第二张图与第一张图中的其他条件相同,只是增加了一个附加条件“文章必须至少被引用一次”。换句话说,第二张图统计的文章数是被引用的“有效文章数”,相对更合理。
在这两张图中,中国在2014和2015超过了美国(以及所有其他二线国家),处于领先地位。
问题是,在AI研究领域,中国人真的那么强吗?
直观来看,这些年来,人工智能领域有很多中国/中国人,比如吴恩达、孙健、杨强、黄光斌、马毅、张大鹏等。我能说出很多,在谷歌的研究团队、微软研究院等地方亲眼见过,也到处都是中国人、中国面孔。但这只是一个直观的感受。综合来看,中国人/中国人所做的科研贡献有多重要,人工智能的推动作用有多大?白宫报告中的统计数据是否科学合理?
事实上,我对美国国家战略计划中的统计数据有几个疑问,主要包括:
直接搜索“深度学习”和“深度神经网络”这两个关键词,真的能涵盖近年来人工智能领域的所有科研进展吗?在机器人、智能控制、机器视觉、无人驾驶等领域,还有很多文章没有提到深度学习。严格匹配关键词会漏掉多少相关文章?是否影响统计结果?
“文章至少被引用过一次”是科学的,但似乎远远不够。对于这种统计,真的需要考虑SCI的影响因素吗?不考虑的话,有多少发表在穷人期刊上的论文会混进去?这些数据会不会被国内研究机构以SCI引用评价职称的行为所污染?
在全球化时代,按照国家统计,会出现明显的偏差吗?白宫的报告没有提到统计的文章是如何被分类到不同国家的。按照作者发表时所在的机构,大量访问外国机构的中国学者会被算作外国人吗?如何统计中国人和外国人写的文章?如果期刊属于不同的国家和地区,不同国家的期刊水平(影响因子)的差异会不会使统计结果有偏差?
基于此,我也想自己做个统计。
在统计之前,我给自己定了几个原则:
从期刊的影响因子出发,只统计影响因子高的顶级期刊。
从Web of Science的关键词出发,涵盖了所有与人工智能相关的科研领域,而不仅仅是深度学习方面的文章。
把重点放在中国人身上,而不是用国别分类来比较中国和外国——这是我自己的选择,因为在当今学术界,国与国之间的合作与交流是不可忽视的。像吴恩达这样的海外华人实际上正在为中国人工智能的发展做出贡献。与其限制国家,不如把地球上的中国科学家和科研人员作为一个整体来看一看。
关注的时间范围是从2006年到2016年,跨度约10年——因为很多人说这波人工智能真正兴起是在2006年之后的几年。
我的统计结果
我们来看看2006-2016中国作者的平均贡献:
3.
在2006年至2016年期间,近2万篇顶尖人工智能文章中,中文投稿量和被引量分别占总数字的29.2%和31.8%。在过去十年中,中国人以约五分之一的作者贡献了平均30%的顶级AI研究文章和引文。从统计学上来说,这是一个高于平均水平的科研贡献。
然而,平均水平并不能显示近年来中国科学家和研究人员的实力。2006-2065 438+05,中国人投稿文章数和被引用次数的变化趋势:
4.
从2006年到2015年,中国作者参与的顶级AI论文比例从23.2%逐年上升到42.8%。但中国作者参与的AI顶级论文被引用次数从25.5%逐年上升到55.8%(2016数据较少,未用于趋势对比)。
也就是说,即使只统计顶级刊物上的顶级文章,中国人/中国人在人工智能领域的贡献也和白宫报告揭示的规律一模一样——从任何角度看,中国人/中国人在人工智能领域都起着决定性的作用,从2014和2015看,中国人/。
个案分析
会有人觉得这个统计不可思议吗?这个结果会不会让很多人意想不到?我们还可以举一个更具体的例子来深入分析。
在顶级人工智能期刊和会议论文集里,我举个著名的例子:IEEE Transactions on Pattern Analysis and Machine Intelligence(PAMI),2015年影响因子6.077,高到没朋友。想在这里投稿的同学可能知道被录取和发表有多难。
我根据引用次数选取了2006-2016年IEEE Transactions关于模式分析和机器智能的前500篇论文。以下是这500篇论文的引文分布情况:
5.
其实很恐怖。500强文章最高引用数2715,最低引用数41——多么顶尖的期刊!普通期刊很难比。
那么,在这500篇顶尖人工智能论文中,中国科学家和研究人员的贡献是什么?先说几个数字:500篇顶级文章作者1220人,其中中国科学家和研究人员316人,占25.9%。所有作者统计的总被引次数为231361,其中中国科学家和研究人员的总被引次数为63846次,占27.6%。如果只看2014年的数据(当时中文的文章量和被引量都很高),中国科学家和科研人员被引量占51.8%,超过一半。
6.
如果只看IEEE Transactions on Pattern Analysis and Machine Intelligence 2006-2016被引用最多的10中国作者和10非中国作者的详细情况,也是一个很有意思的表格:
7.
IEEE Transactions关于模式分析和机器智能的前10名中国人和前10名非中国人,人均引用总数几乎相等。的确,顶尖人工智能科学家中民/中国人的贡献不亚于其他科学家。
另外,如果你不熟悉人工智能的研究领域,尤其是模式识别,那么记住表格中前20名科学家的名字。有兴趣可以搜一下他们的简历,看看他们都在哪里工作做研究,他们的学生同事都是谁。相信会有很多发现。