引言

最近,中科院院士增选信息刷爆了网络。不少个人、大学、研究院、初高中、省市发布喜讯,光本吃瓜群众的朋友圈就有数十条喜气洋洋的转发。但这些新闻大都聚焦于个人或某个单位,而本吃瓜群众不仅想看个人八卦,更想看到一个较为全面的统计分析,多次搜索却没有看到。于是,本吃瓜群众想找相关公开、整理好的数据集来自己分析,但这又一次失败了——呜呼哀哉,原来并没有人分享整理好的数据集!
作为一名写得了爬虫、洗得白数据、画得好图表,还会rmarkdown自动化生成动态文档的六边形吃瓜群众,这些又有何难?于是这篇并不那么严谨,且仅为满足本吃瓜群众莫名好奇心的简单粗暴分析报告就诞生了。
我们整理了2000-2021年共11次中科院院士增选信息以及相关单位地址和类型, 从人数、学部、单位、双一流大学、区域、单位类型、年龄等多个角度进行统计、可视化和比较分析。关于数据集和代码相关更详细的说明,参见文末。
首先,我们先看2000年以来,中科院院士增选的简要数据。下面的表格支持搜索和按列排序(仅支持HTML电脑端,如果是微信/知乎端,请点击动态报告链接在电脑端交互查看)。
您可以在搜索框输入某所大学、某个专业来查询相关数据。首先,直接可以看到,有584条信息,对应584个增选院士的信息。搜索“女”,有40条记录,说明新千年后共有40位女性入选。搜索“天体物理”,有8条记录,都是专业为天体物理的。搜索“香港”,有21条记录,都是香港高校的入选院士信息。按年龄排序,很快会发现最小的是37岁,最大的是75岁。是不是便捷如Excel?但又不需要打开Excel:)

人数变化

2000年以来中国科学院入选院士总人数为584个,每两年选一次(奇数年),每次人数大都在50~65之间。但2007、2009这两年出现了断崖式下跌,2007为29人,2009年为35人。我们进一步吃瓜,查阅了当年的新闻。发现这两年总名额都为60位,但投票规则较以往更为严苛,要求新增选院士获得的赞同票要不少于投票人数的2/3才有当选资格。要求非常高,竞争很激烈,因此很多名额都落空了。
学部分析
我们再来分学部和年份看看,用热力图看到各个学部的入选人数。可以看到,
  • 最高的是2013年技术科学部17人,最低的是2007年信息技术科学部1人
  • 信息技术科学部成立似乎较晚,从2005年才开始有院士入选
  • 技术科学部的院士入选数目起伏是最大的。最大值17,最小值5,极差12
  • 自2011年后,数学物理学部和化学部的院士入选人数,逐年小幅增加1人或者持平 其他学部入选人数在个别年略有下降
我们再来画折线图来更明显地来看趋势:

单位分析

我们按单位、年份来统计院士增选人,并按照总和从高到低排序。在搜索框可以搜索相关数据,点击列名可以按高低排序。
统计数据中可以得出,2000年后有院士入选的一共有200个单位。我们统计一下这些单位的入选院士人数的分布,发现分布非常不均衡,在200个单位中
  • 仅有1人入选的单位多达100个,占比50%
  • 1~4人入选的单位170个,占比85%
  • 超过(含)5人入选的有30个单位,占比15%
  • 超过(含)10人入选的有10个单位,占比5%
  • 超过(含)15人入选的有5个单位,占比2.5%
  • 超过(含)20人入选的有3个单位,占比1.5%
  • 超过(含)30人入选的有2个单位,占比1%
我们把排名前30的单位画出柱状图,来更直观地查看:

双一流大学分析

接下来,我们看看A类一流大学建设高校(共36所)的院士情况,学校名单来自教育部官网。
36所A类一流大学共入选中科院院士242位,占比41%。
从图中可以得到:
  • 有20+个院士入选的高校有3所:北京大学、 清华大学、 中国科学技术大学
  • 有10~19个院士入选的高校有4所:南京大学、 复旦大学、 浙江大学、 上海交通大学
  • 有5~9个院士入选的高校有8所:南开大学、 厦门大学、 武汉大学、 西安交通大学、 国防科技大学、 华中科技大学、 中山大学、 兰州大学
  • 有1~4个院士入选的高校有17所:北京航空航天大学、 北京师范大学、 吉林大学、 哈尔滨工业大学、 同济大学、 东南大学、 山东大学、 华南理工大学、 四川大学、 中国农业大学、 大连理工大学、 华东师范大学、 中国海洋大学、 西北工业大学、 天津大学、 中南大学、 电子科技大学
  • 有0个院士入选的高校有4所:中国人民大学、 北京理工大学、 中央民族大学、 重庆大学

区域分析

接下来,我们看看各省的院士增选情况。
我们可以看到以下重要信息:
  • 北京的入选数独占鳌头,多达267个,占比45.72%
  • 上海、江苏、湖北、安徽、香港、陕西均超过了20个
  • 内蒙古、 广西、 青海、 宁夏、 澳门、 台湾等6个省级行政区域近20年尚无新入选科院院士
对所有省级单位的增选总数画出柱状图,来更直观地查看:

单位类型分析

接下来,我们按单位的类型来汇总和查看数据。
可以看到以下主要信息,
  • 两大龙头是:教育部直属院校(238个) 和中科院相关院所(224个),共新入选(462个)个院士,占比为79.11%,接近80%
  • 其他占比较高的包括
    • 地方院校(45个,占比7.71%;含香港高校)
    • 军事单位(23个,占比3.94%;数据不含军工企业,仅包含部队和相关学校)
    • 工信部直属院校(17个,占比2.91)%
    • 中国航天系统(15个,占比87.6%;含航天科技和航天科工)
    • 中国工程物理研究院(8个,占比1.37%)

年龄变化

最后,我们再来看看年龄变化趋势。
很明显,从2001到2011年间,中科院新入选院士的年龄整体变小,趋势明显。尤其在2011年,入选年龄算数均值最低,2011年的平均年龄(52.69岁)比2001年(60.59岁)小了将近8岁!而此后,年龄总体小幅度上扬,2021年的平均年龄比2011年增加了5岁。背后的机制和原因有待考察。
更进一步,我们来看分布的变化。从图中可以看到,40岁以下的离群点有三个,都是在2001和2003年。年龄最大的是在2011年产生,75岁。从图中还可以看到,2005、2007、2009年度增选院士的年龄分布比较宽, 此后院士年龄的分布变窄,也就是年龄越来越集中。在此大胆猜测,院士的年龄,可能也被作为一个重要的考察因素。太大或者太小,概率都会降低。
我们可以绘制箱线图,分学部看看年龄的分布变化:
以上,就是本文对中科院2000年以来11次院士增选的初步分析。
鉴于本吃瓜群众不了解相关业务知识,因此仅从数据表现上阐述了一些非常初步的规律。如果您对数据背后的业务和规律有更多了解,欢迎指正和补充。

数据和程序说明

院士增选数据来自中科院官网, 我们整理了原始数据,经过初步的人工审核,存放在CAS-Fellow-2001-2021.csv文件中。为了分析单位所在的省、市和类型,建立了入选单位的省、市和类型对照数据表,存放在Empl_location.csv文件中。本报告用rmarkdown撰写,相关图表自动生成,得到的HTML文档中的表格支持搜索和交互查询。
还需要特别说明的几点是:
  • 同一个单位在不同年份叫法并不统一(比如中科院X所,中国科学院X所),我们对这些单位名称进行了归一
  • 生命科学和医学学部之前被称为生物学部,统一为现在的名称:生命科学和医学学部
  • 大学的附属医院、国企的下属研究院往上进行了合并,比如复旦大学附属中山医院,合并入复旦大学
  • 部分单位在多个地方有分布,在填写所在地的时候,一般以总部为主,比如北京
  • 少数院士有两个单位,我们在计算的时候只要单位都在国内,都各算1个
  • 部分单位在历史中,发生过组织上的合并和撤销,对这方面不做处理

项目地址和版权协议

本文所有的数据、代码都完全公布,报告基于rmarkdown和Git的可重复框架。读者运行rmd文件即可得到同样的报告,欢迎更多吃瓜群众围观、挑错和协作改进!
本项目相关地址如下,欢迎star、fork、pr三连:
  • 动态报告:http://costudy.gitee.io/cas-fellow/
  • 项目地址(Github):https://github.com/cosname/CAS-fellow/
  • 项目地址(Gitee):https://gitee.com/costudy/CAS-fellow/
本项目版权协议使用木兰宽松许可证第二版,请遵守相关规定。
引用格式:
六边形吃瓜群众,数说风云:2000-2021年中科院院士增选数据分析,统计之都,2021,URL:http://costudy.gitee.io/cas-fellow/

关于数说风云

【数说风云】是由统计之都发起,针对热点或重大话题,开放式约稿, 以共享数据、传播技术、启发思考、促进创新。欢迎讨论、欢迎参与、欢迎投稿!联系邮箱:[email protected]
编辑:王汀
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众帐号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
继续阅读
阅读原文