这里是未明学院的技能分享贴~
我们会定期分享:     
    好用到“难以自拔”的Python工具   
    好玩到“停不下来”的Python体验   
    好酷到“不忍错过”的Python技巧
这几天新型冠状病毒肺炎疫情牵动着所有人的心,各种新闻消息铺天盖地,有的小伙伴可能需要从海量的信息中摘取自己所需的,用以统计或是写作。
今天的技能帖就教大家如何从人民网爬取新型冠状病毒相关的新闻。各位也可以尝试用同样的方法爬取其他网站所需的新闻哦~ 
爬取内容
目标网站:http://www.people.com.cn/,在其中搜索新型冠状病毒关键词
先爬取新闻链接,再对新闻链接进行详细页面爬取
代码如下
首先导入所需要用到的库
(注:需要事先安装lxml和newspaper等模块)
获取新闻外部链接
爬取新闻的主题内容
存储数据结果
过程展示
结果展示
分析数据
LDA主题分析
我们对爬取疫情的相关新闻进行了LDA主题模型分析,可以按照主题的共性对新闻内容从高到低进行排列。
排名越靠前的主题说明与该主题所表达内容相近的新闻内容越多,经过分析,我们取出了排名前6的主题
1.医学观察 2.防护工作 3.一线医护
4.信息发布 5.政府工作 6.冠状病毒
可以看出医学观察和防护工作是重点,做好这两点就能进一步遏制病毒的扩散。同时报道一线医护人员和疫情的情况,我们才能了解到疫情现阶段的发展。而我们能做的就是积极响应政府的工作,做好疫情防护,了解冠状病毒的基本常识,在生活中做好病毒的防范工作。
词云图统计
我们对所爬取的新闻,进行词频统计,然后绘制出词云图,发现新闻的主要关键词如下:
可以看出,近期新闻的关注重点依然是口罩的供应与医院情况的相关说明,从“保障”、“防疫”、“落实”、“确保”等关键词可以看出,国家正在积极应对本次疫情,相信我们可以共抗难关。除此之外,企业复工同样受疫情影响,国家出台了相关政策以确保尽量降低企业损失。
公众号后台回复“04”即可获取源码
- END -
未明精选
点个赞,我们一起渡过难关!
继续阅读
阅读原文