剑客
关注科技互联网

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

人工智能这把火已经烧到了国家战略层面,连美国总统和政府机构也卷了进来。上周四,奥巴马主持白宫前沿峰会,展望美国在未来 50 年的发展。峰会中,白宫发布报告《 国家人工智能研究与发展策略规划 》。相关情况,大家可以参考《连线》杂志的总统专访( Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity ) 。

这两天,自媒体没少炒作这个报告;我自己呢,倒是特别地对这个报告中的两张趋势图感兴趣。报告中说,从 2013 年到 2015 年,SCI 收录的论文里,提到“深度学习”的文章增长了约六倍,同时强调,“按文章数计算,美国已不再是世界第一了。”

美国不是世界第一?谁是世界第一呢?来看报告中的两张趋势图:

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

上图是每年 SCI 收录的文章里,提到“深度学习”或“深度神经网络”的文章数量变化趋势,同时按国家做了区分。数据本身是从 Web of Science 核心数据库里查询得到的。

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

第二张图和第一张图其他条件一样,只是增加了一个“文章必须至少被引用一次”的附加条件。也就是说,第二张图统计的文章数,是被引用过的“有效文章数”,相对来说更合理一些。

两张图里,中国都在 2014 年和 2015 年超过了美国(以及其他所有第二梯队的国家),居于领跑者的位置。

问题来了,在 AI 研究领域,中国人真有这么强吗?

从这些年的直觉看,中国人 / 华人在人工智能领域里的大牛比比皆是,吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏 ……随口可以说出一大串,我自己在 Google 的研究团队,微软研究院等地亲眼看到的,也到处是中国人、华人的面孔。但这只是直观感受。整体来看,中国人 / 华人所做的科研贡献到底有多重要,对人工智能的推动作用到底有多大?白宫报告里的统计是不是科学、合理?

其实,对美国国家战略规划里的统计,我自己是有几个疑问的,主要包括:

  • 直接搜索关键字“深度学习”、“深度神经网络”,真的能涵盖这些年人工智能领域的所有科学研究进展?像机器人、智能控制、机器视觉、无人驾驶等领域里,没有提及深度学习的文章眼见还有不少。严格按关键词匹配会漏掉多少相关文章?是否影响统计结果?
  • “文章至少被引用一次”,比较科学,但好像还远远不够。这种统计,真的不需要考虑 SCI 的影响因子吗?不考虑的话,会混进多少较差期刊上发表的比较水的论文?这些数据会不会被国内研究机构靠 SCI 引用数来评职称的风气污染?
  • 在全球化时代,按国家统计,会不会有明显偏差?白宫报告没有提到被统计的文章是如何归入不同国家的。如果按作者发表文章时的所在机构,那大量在国外机构访问的中国学者会不会被算成外国人?中国人和外国人合写的文章该如何统计?如果按期刊所属国家和地区,那不同国家间的期刊水平(影响因子)差异是不是会让统计结果带有偏见?

基于此,我也想自己去做个统计。

统计前,给自己设了几条原则:

  • 从期刊的 SCI 影响因子出发,只统计影响因子高的顶尖期刊。
  • 从 Web of Science 主题词出发,涵盖人工智能相关的所有科研领域,而不仅是深度学习方面的文章。
  • 文章要求至少被引用一次。
  • 关注对象是华人,而不是用国家分类的办法去比较中国和外国——这个是我自己的选择,因为今天的学术界,国家间的合作和交流已不可忽视。类似吴恩达这样的外籍华人,其实也在为中国的人工智能发展做贡献,百度首席科学家嘛(有人说吴恩达是越南裔,我没找到出处,只知道他父母是香港人;也许有机会时,当面问问 Andrew?)。与其限定国家,不如从整体上看一看,地球上的华人科学家、研究者群体,到底有多厉害。
  • 关注时间范围是 2006 到 2016 年,跨度 10 年左右——因为许多人说,这一波人工智能大潮是从 2006 后的几年时间里,才开始真正兴起的。

我的统计结果

先说说我的统计结果,一会儿会在附录一中讲讲我用的统计方法。

来看下 2006 到 2016 年间华人作者的平均贡献:

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

在 2006 到 2016 年的时间段里,近两万篇最顶级的人工智能文章中,由华人贡献的文章数和被引用数,分别占全部数字的 29.2%和 31.8%。近十年,华人用五分之一左右的作者人数,平均贡献了三成的顶级 AI 研究文章和被引用数。统计角度,这已经是超出平均水平的科研贡献了。

但平均数并不能看出华人科学家、研究者在最近几年的发力程度。来看 2006 到 2015 年间,华人贡献的文章数和被引用数的变化趋势:

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

2006 到 2015 年间,华人作者参与的顶级 AI 论文,占全部顶级 AI 论文数量的比例,从 23.2%逐年递增到 42.8%。而华人作者参与的顶级 AI 论文被引用次数,占全部顶级 AI 论文被引用次数的比例从 25.5%逐年递增到 55.8%(2016 年数据较少,未用于趋势比较)。

也就是说,即便只统计顶级出版物里的顶级文章,中国人 / 华人在人工智能领域的贡献,在发展趋势上也和白宫报告中揭示的规律如出一辙——无论从哪个角度来说,中国人 / 华人正在人工智能领域里发挥举足轻重的作用,而且,从 2014 年,2015 年开始,中国人 / 华人已经处于人工智能研究的领先地位,占据了人工智能科研世界的半壁江山!

个案分析

会有人觉得这个统计很不可思议吗?这个结果会出乎很多人意料吗?我们还可以拿一个更具体的例子,来深入分析一下。

在顶级人工智能期刊里,我来举个大名鼎鼎的例子吧:IEEE 模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称 PAMI),2015 年影响因子 6.077,高到没朋友,想往这里投稿的同学可能都知道被接受和发表的难度有多恐怖。

我从《IEEE 模式分析与机器智能汇刊》里按引用数选出 2006 到 2016 年间的前 500 篇论文,下面是这 500 篇论文的引用数分布情况:

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

其实很恐怖的,前 500 篇文章最高引用数 2715,最低引用数 41——真顶级期刊!普通期刊难以望其项背呀。

那么,这 500 篇最顶级的人工智能论文里,华人科学家、研究者的贡献如何呢?先说几个数字:500 篇顶级文章的作者一共 1220 人,其中华人科学家、研究者 316 人,占 25.9%。所有作者单独累加计算的被引用数总和是 231361 次,其中,华人科学家、研究者被引用数总和是 63846 次,占 27.6%。如果单看 2014 年(当年华人的文章数、引用数均较高)的数据,华人科学家、研究者被引用数占 51.8%,超过了半数。

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

如果只看《IEEE 模式分析与机器智能汇刊》在 2006 到 2016 年间,引用数最多的 10 位华人作者和 10 位非华人作者的具体情况,也是一个很有趣的表格:

人工智能领域,中国人 / 华人有多牛?大概占了半壁江山吧

《IEEE 模式分析与机器智能汇刊》的华人前 10 位大牛,与非华人前 10 位大牛,在每个人的总引用数上几乎不相上下。的确,最顶尖的人工智能科学家里,中国人 / 华人的贡献丝毫不亚于其他科学家。

另外,如果对人工智能特别是模式识别的研究领域不熟悉,那么,记住表中这 20 位顶尖科学家的名字吧。有兴趣的话,大家可以去搜一搜他们的简历,看看他们都在哪里工作,在哪里做研究,他们的学生、同事都是谁,相信会有很多发现。

原因?

为什么中国人 / 华人在人工智能领域这么强?因为数学好?因为兴趣使然?因为思维习惯?因为勤奋?因为教育?大家可能都有自己的答案。

本文不想展开讨论,列举数据和事实,才是本文的目的。

附录一:统计方法介绍

简单介绍一下我是怎么得到上面那些比例和趋势数据的。

周末,我先去 Web of Science 数据库里,找到 Computer Science / Artificial Intelligence 的主题类目,根据 2015 年 SCI 影响因子从高到低排序,取前 50 个出版物,这 50 个人工智能领域顶级期刊的详细列表见附录二。

(因为筛选条件设置,主要是类目和影响因子的设置问题,顶级会议的会议录没有作为出版物列入这份列表。当然,顶级会议文章被顶级期刊收录的情况并不罕见。另外,每年文章数相对稳定的期刊用来做趋势统计要更容易一些,白宫报告的统计对象也是期刊文章。顶级会议文章通常需要另行统计,也许下次吧。)

然后,对每份顶级期刊,基于文章的被引用数对 2006 到 2016 年的所有文章进行排序。这个时间段里,期刊的平均发表文章数在 500 左右,我以 500 为上界,取每份期刊中,被引用数最多的文章,至多 500 篇,每篇文章至少被引用一次。由此得到 2006 到 2016 年间的顶级人工智能相关论文共计 19855 篇。

接下来,基于这些文章的作者列表和被引用数目,统计华人科学家、研究者与全部文章作者之间的比例和趋势关系。

如何识别华人作者?好像没有特别好的方法。我的方法是根据英文姓名判断,如果英文姓名主要由汉语拼音、韦氏拼音或粤语拼音组成(当然还要考虑姓氏、名字二者在英文表述上的区别,以及其他一些经验规则),那么就假定这个作者是华裔。根据小样本集验证,这个判别方法的检准率大约在 96%以上,检全率大约在 90% 左右。也就是说,会有一定数量的遗漏,也会有少量误识,但基本可以反映整体情况与趋势。

如何解决合作者问题?我是分别统计,并且不加权重的。第一作者和其他作者共享文章计数和引用计数。为第一作者增加权重是否影响整体统计结果?也许,但不会影响总体趋势数据,因为并没有证据表明,华人更多地出任第一作者,还是非华人更多地出任第一作者。至于每个作者的文章数和引用计数,是采用简单累加,还是采用比例累加(如两人合作,每人的贡献算 0.5 还是 1),我做了全数据集的对比试验,几乎完全不影响整体结果。

附录二:按 SCI 影响因子排序的前 50 人工智能期刊列表

出版物名称,影响因子

  1. IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701
  2. International Journal of Neural Systems, 6.085
  3. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 6.077
  4. IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908
  5. INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981
  6. IEEE Transactions on Cybernetics, 4.943
  7. IEEE Transactions on Neural Networks and Learning Systems, 4.854
  8. MEDICAL IMAGE ANALYSIS, 4.565
  9. Information Fusion, 4.353
  10. INTERNATIONAL JOURNAL OF COMPUTER VISION, 4.27
  11. IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735
  12. IEEE Computational Intelligence Magazine, 3.647
  13. EVOLUTIONARY COMPUTATION, 3.6
  14. IEEE INTELLIGENT SYSTEMS, 3.532
  15. PATTERN RECOGNITION, 3.399
  16. ARTIFICIAL INTELLIGENCE, 3.333
  17. KNOWLEDGE-BASED SYSTEMS, 3.325
  18. NEURAL NETWORKS, 3.216
  19. EXPERT SYSTEMS WITH APPLICATIONS, 2.981
  20. Swarm and Evolutionary Computation, 2.963
  21. APPLIED SOFT COMPUTING, 2.857
  22. DATA MINING AND KNOWLEDGE DISCOVERY, 2.714
  23. INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696
  24. SIAM Journal on Imaging Sciences, 2.687
  25. DECISION SUPPORT SYSTEMS, 2.604
  26. Swarm Intelligence, 2.577
  27. Fuzzy Optimization and Decision Making, 2.569
  28. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476
  29. JOURNAL OF MACHINE LEARNING RESEARCH, 2.45
  30. ACM Transactions on Intelligent Systems and Technology, 2.414
  31. NEUROCOMPUTING, 2.392
  32. ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368
  33. CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217
  34. ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142
  35. COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134
  36. JOURNAL OF AUTOMATED REASONING, 2.113
  37. INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2.05
  38. COMPUTATIONAL LINGUISTICS, 2.017
  39. ADVANCED ENGINEERING INFORMATICS, 2
  40. JOURNAL OF INTELLIGENT MANUFACTURING, 1.995
  41. Cognitive Computation, 1.933
  42. IEEE Transactions on Affective Computing, 1.873
  43. JOURNAL OF CHEMOMETRICS, 1.873
  44. MECHATRONICS, 1.871
  45. IEEE Transactions on Human-Machine Systems, 1.8
  46. Semantic Web, 1.786
  47. IMAGE AND VISION COMPUTING, 1.766
  48. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 1.759
  49. NEURAL PROCESSING LETTERS, 1.747
  50. ARTIFICIAL INTELLIGENCE REVIEW, 1.731
分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址