【摘要】
通过姚安娜出道的舆情事件,说明网络舆情监测的必要性。介绍了网络舆情监测的数据来源、重点需求、技术框架和主要挑战。
本文内容来自“数字化视界”的视频内容,欢迎大家关注,一起交流和探讨关于舆情监测、数据智能、大数及AI等方面的技术和想法。

一、引言:姚安娜出道事件

前段时间姚安娜出道的话题迅速成为一个网络热点,微博上有一个完整的纪录片,大家可以去看看感受一下。“为什么大家喜欢姐姐不喜欢我”,估计华为的公关部门这几天也很关注这个事情的影响。
OK,假设你就是华为的公关部门负责人,那么现在你最想做的是什么?我觉得至少有几件事情是可以做的:
(1)充分了解这个事件的传播情况和扩散范围;
(2)收集和分析网民对这个事件的评论和观点;
(3)评估这个事件对任总以及对华为带来的影响和后果;
(4)针对这个事件的不利影响,提供相应的处置方案。
可以预想得到,其实任何的政府部门、政府官员、企业、社会组织、名人都可能会面临类似的危机处理问题,如何及时地发现、分析和评估网上的相关舆情信息,以便做出适当的处理决策,这就是网络舆情监测要干的事情。

二、舆情监测的数据来源及主要需求

其实,自从搜索引擎出现后,对网络舆情监测的需求就自然地出现了,有时也叫舆情监控。其实在我看来,“监测”和“监控”这两个词的含义有一点细微的差别,“监测”强调舆情信息的发现、分析和评估,而“监控”的含义,还包含了对舆论进行引导和控制的意思,比如通过一些公关手段,将负面的舆情转向到更加积极正面的方向上来,或者阻断舆情信息的进一步传播。
早期Web1.0时代,舆情监测的数据来源主要集中在三类站点:新闻站点(比如新浪、搜狐等)、论坛(比如天涯论坛、西祠胡同、水木社区、猫扑论坛)、博客网站(比如新浪博客、网易博客、博客中国等等)。后来随着Web2.0以及移动互联网的兴起,舆情信息的数据源又进一步延伸到贴吧、新闻评论、微博、微信公众号、手机新闻客户端。当然,这两年针对短视频平台的舆情监测的需求可能也出来了,比如B站、抖音、快手、微信的视频号,等等。以上这些都是国内的数据源,很多高端客户可能还很关注国外的舆情信息,所以,境外媒体网站、境外的社交网站(Facebook、Twitter等)也是非常重要的数据来源。
在我看来,政府类客户是舆情监测的主要客群,比如政府宣传主管部门、网信办、公检法司、各类监管部门(证监会/银保监/食药监)等等。这些客户希望基于互联网上的信息充分了解社情民意、突发事件、社会热点、百姓诉求、百姓对政府出台政策的看法、以及一些敏感或负面信息的传播情况和社会影响等等,以便提升政府的社会治理能力。当然,舆情监测也可以给企业和社会组织、甚至个体提供类似口碑监测、危机公关等的工具。如果有了一个强大的舆情监测平台,那么前面针对姚安娜出道的几个问题就能够迅速地得到答案。

三、舆情监测是大数据技术和多种AI技术的综合集成应用

下面简单介绍下网络舆情监测所涉及的技术环节。其实,通过前面的讲述,大家也能有个初步判断,网络舆情监测是一个多种复杂技术的集大成者。
我这里简单画了一个技术框架图,除了通常的大数据技术作为存储与计算引擎的基础平台之外,还包括信息采集、信息检索、自然语言处理、以及各种分析挖掘,甚至包括图像识别和视音频的处理,应该说舆情监测是大数据技术和各种AI技术的综合集成应用。所以,要做好并不容易,技术本身的难度就比较大。比如,仅仅数据采集方面的问题,就有不少的挑战,也严重影响舆情监测的最终效果,后面我会专门分享一下关于网络爬虫的问题。

四、阻碍舆情监测系统实施效果的主要挑战

其实,除了数据采集以及由此带来的数据质量问题外,还有两大难题会影响舆情监测的实施效果:
  • 舆情监测的需求往往比较模糊,难以精确地描述。姚安娜出道的这个事件可能相对好一些,用一些关键词就可以很好的定义。但是很多情况下的舆情监测需求是不好定义的,比如针对一般性的群体性事件的监测和预警,在事件还没发生的情况下,怎么去定义和描述你的监测需求,才能让系统返回准确的结果从而提前预警?其实是很难的。从我的经验上来看,通常最终会要建设一个领域知识库。
  • 舆情监测所涉及的各种AI技术的效果具有不确定性和不稳定性,但舆情监测对结果的准确率和召回率的要求又很高,而用户往往对技术抱有不切实际的期望。
上述几个挑战,我想很多舆情的厂商应该是有深刻体会的。
以上,我简单科普了一下网络舆情监测的大致思路、技术框架、主要挑战。总结一下,我想表达三点意思:
  • 舆情监测是个很典型的大数据和AI技术的综合集成应用,尤其在政府类客户中有非常共性的和迫切的需求;
  • 舆情监测真正要做好并不容易,客户的需求往往难以精确描述,而客户对产品和技术的过高期望则对实际效果带来了更大的挑战;
  • 回到姚安娜出道事件,企业危机公关的终极解决方案是什么呢?—— 提前预判,不要让危机发生。
继续阅读
阅读原文