技能帖 | 1分钟学会如何快速从网站爬取新冠病毒新闻
这里是未明学院的技能分享贴~
我们会定期分享:
好用到“难以自拔”的Python工具
好玩到“停不下来”的Python体验
好酷到“不忍错过”的Python技巧
这几天新型冠状病毒肺炎疫情牵动着所有人的心,各种新闻消息铺天盖地,有的小伙伴可能需要从海量的信息中摘取自己所需的,用以统计或是写作。
今天的技能帖就教大家如何从人民网爬取新型冠状病毒相关的新闻。各位也可以尝试用同样的方法爬取其他网站所需的新闻哦~
爬取内容
目标网站:http://www.people.com.cn/,在其中搜索新型冠状病毒关键词
先爬取新闻链接,再对新闻链接进行详细页面爬取
代码如下
首先导入所需要用到的库
(注:需要事先安装lxml和newspaper等模块)
获取新闻外部链接
爬取新闻的主题内容
存储数据结果
过程展示
结果展示
分析数据
LDA主题分析
我们对爬取疫情的相关新闻进行了LDA主题模型分析,可以按照主题的共性对新闻内容从高到低进行排列。
排名越靠前的主题说明与该主题所表达内容相近的新闻内容越多,经过分析,我们取出了排名前6的主题:
1.医学观察 2.防护工作 3.一线医护
4.信息发布 5.政府工作 6.冠状病毒
可以看出医学观察和防护工作是重点,做好这两点就能进一步遏制病毒的扩散。同时报道一线医护人员和疫情的情况,我们才能了解到疫情现阶段的发展。而我们能做的就是积极响应政府的工作,做好疫情防护,了解冠状病毒的基本常识,在生活中做好病毒的防范工作。
词云图统计
我们对所爬取的新闻,进行词频统计,然后绘制出词云图,发现新闻的主要关键词如下:
可以看出,近期新闻的关注重点依然是口罩的供应与医院情况的相关说明,从“保障”、“防疫”、“落实”、“确保”等关键词可以看出,国家正在积极应对本次疫情,相信我们可以共抗难关。除此之外,企业复工同样受疫情影响,国家出台了相关政策以确保尽量降低企业损失。
公众号后台回复“04”即可获取源码
- END -
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。