卡塔尔世界杯科技系列:智能搜索助精彩赛事精准直达
全文约7000字,预计阅读18分钟
背 景 篇
随着互联网快速发展,信息爆炸式增长,如何在信息过载的环境下快速有效地定位到目标信息成为关键问题,搜索是解决信息过载较为有效的方式。
搜索的内涵
搜索,指带有目的性地寻找。从狭义上讲,信息检索就是指信息搜索;从广义上讲,信息检索包含搜索引擎、问答系统、信息抽取、信息过滤、信息推荐等。
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,将用户检索到的相关信息展示给用户,为用户提供检索服务。
搜索系统的概念可以从如下两方面解释。从系统角度来看,搜索系统是一个更广泛的概念,包括搜索引擎,具有相关性计算和分析的系统都可以归为搜索系统。除了我们常说的搜索引擎外,搜索系统还应该包括外部支持的业务场景和应用领域等特征。从用户角度来看,搜索系统的输出是对用户需求的投射,因此我们在设计搜索系统时需要观察用户对检索结果的反应,除此之外,还得考虑相应的应用场景以及搜索工程。
发展简史
1990年,世界上第一个Web服务器和第一个Web客户端,被命名为万维网(World Wide Web,WWW)。同年,第一个搜索引擎Archie出现,用于搜索FTP服务器上的文件,用户需要准确输入文件名获取文件地址。1995年,“目录导航”搜索引擎技术的代表Yahoo正式成立。Yahoo的技术提高了被收录网站的质量,缺点是不便于扩展,收录网站数量较少。1998年9月,PageRank链接分析技术的代表Google公司成立。Google公司充分利用网页之间的链接关系,考虑网页链入的数量和质量,从而计算网页的排名,大幅提升了搜索质量,使其成为占有搜索引擎市场份额最大的公司。
作为互联网网站和应用的入口,搜索引擎的地位越来越重要。但是进入了移动互联网时代后,传统搜索引擎正逐渐失去流量,是用户更偏爱推荐不需要搜索了吗?其实传统搜索引擎的没落绝不意味着搜索价值的降低,而是搜索发展到第二阶段,拥有丰富优质内容生态的垂直搜索。以Facebook、微信、知乎、高德地图为代表,搜索结果也不仅限于文档,也可以搜索朋友、公众号、位置等,精准地契合用户的搜索需求更为重要。
伴随着人工智能的发展,以算法为内容分发底层逻辑平台的涌现,跨APP内容搜索、垂直领域搜索及语音等AI搜索方式全面进入市场,第三代引擎也在悄然进化中。搜索行业,正式迈向智能搜索阶段,搜索已不限于有框输入,而是从用户的需求出发,支持更灵活便捷的多模态输入,搜索结果相比于传统返回相关列表方式,也逐渐转变到返回更直接有效的信息答案。
这一期我们就聊聊智能搜索的技术、应用和趋势。
技 术 篇
搜索是用户触达信息最简单直接的方式,是业务触达用户的必备功能。有观点认为用户现在不用搜索了,用其他形态的产品比如推荐替代了搜索?其实恰恰相反,两者殊途同归,最终搜索还是用户表达需求的最主要入口。伴随人工智能在搜索上的应用,搜索演进的速度也越来越快。
智能搜索总体基于Query理解,多路召回,内存重排框架,支持精确搜索、分词搜索、纠错搜索、语义搜索、关联搜索、多语言搜索、语音搜索等能力,为用户提供智能个性化的搜索体验。
Query 理解
搜索三大模块的大致调用顺序是从Query理解到检索召回再到排序,Query理解作为搜索系统的第一道环节,为召回及排序模块提供基础特征,很大程度影响召回和排序的质量,同时理解程度决定搜索系统的智能程度。
图1 Query理解使用能力
下面重点介绍在Query理解中使用的能力模块,是智能搜索系统的核心基础能力,均为我们团队自主研发。
预处理
:将在输入法全角模式下输入的
Query转换为半角模式的,主要对英文、数字、标点符号有影响,如将“wechat123”全角输入转成半角模式下的“wechat 123”;
:统一将大写形式的字母转成小写形式;
:将繁体输入转成简体的形式,考虑到用户群体的差异以及可能存在繁体形式的场景,有些情况还需要保留转换前的繁体输入用于召回;
:移除诸如火星文符号、emoji表情符号等特殊符号内容;
文本分词
Query分词就是将Query切分成多个term,如:“卡塔尔世界杯”切分成“卡塔尔 世界杯”两个term。分词作为最基础的词法分析组件,其准确性很大程度影响后面各个模块的处理,如分词及对应词性信息可用于后续的term重要性分析和意图识别等多个模块。同时,分词及其粒度需要与item侧索引构建的分词及粒度保持一致,从而才能进行有效地召回。目前分词技术相对来说比较成熟,主要做法有基于词典进行前后向最大匹配、对所有成词情况构造DAG、hmm/crf序列标注模型以及深度学习模型+序列标注等。
自有分词能力在业界主流分词算法的基础上,优化了在分词阶段的 “阶段分词的改进算法”,其整体分词流程和相关技术如下:
基于词典方法,通过使用基于阶段分词的改进,在进行最优路径规划之后,召回森林上叶子节点的前一个节点,针对分词结果进行回补,扩大分词的粒度,拆分出更多有利分词组合。
纠错能力
Query纠错,顾名思义,也即对用户输入Query出现的错误进行检测和纠正的过程。用户在使用搜索过程中,可能由于先前知识掌握不够或输入过程引入噪音(如:语音识别有误、快速输入手误等)导致输入的搜索Query会存在一定的错误。如果不对带有错误的Query进行纠错,除了会影响其他模块的准确率之外,还会影响召回的相关性及排序的合理性,最终影响到用户的搜索体验。
搜索自有纠错能力把Query中错误的词语,通过纠错技术结合纠错词典纠正为正确的词语,纠错技术包括 容错索引方法、语义理解算法、形近字识别算法、形声字声旁识别算法、英文编辑距离计算等技术对错误词语进行纠正,并结合搜索场景支持多类型组合纠错。
支持型纠错类型:包括多音字、同音字、模糊音、形近字、多字少字等各类型错误。
多类型组合纠错:包括拼音汉字混合、繁简汉字组合、结合场景的不同实体组合纠错等灵活的纠错方式。
识别用户输入的搜索文本中的错误,并予以改正,使搜索采用正确的文本,提高搜索的准确度。
词权重算法
智能搜索在词权重开源模型textRank和tf-idf的基础之上,整合XGBoost决策模型,以及其他的模型特征,自主训练特征权重,最终按照得分召回相关关键词。基于Feature+ML方案,使用XGBoost基于特征设计+机器学习回归模型预测词权重得分。
term静态特征包含:idf值、词频、term长度、term词性、词位置、是否停用词、是否语气词、是否专有名词(人名/地名)等;
term交互特征包含:term长度占query长度比值、text-rank值、term在query中相对位置等;
ngram特征包含:该term的ngram统计特征、以该term开始的ngram统计特征、以该term结尾的ngram统计特征等。
词权重训练数据采用用户的海量query-title词,对近3个月的日志数据构建训练,实时更新,充分保证词权重训练效果。
配合解决搜索长词分词太细,召回内容不相关的问题; 非传统标题匹配:标签、分类、其他信息(角色、观众、人物关系等)、类似XX的电影; 复杂搜索:多词、多实体、多过滤条件搜索(如:最近大陆男歌手唱的流行歌曲,周杰伦唱的歌,周杰伦写的歌,胡彦斌); 偏口语化表达(如:“我想听XXX”中的“我想听”不作为关键词做检索); 个性化搜索词:如:最新、最热、好评等,可实现按照指定词进行倒排内容; 多意图分析,如1942既是电影,又可以理解年代,周星驰是演员同时也可能是一部影视剧的名称,角色和演员名称相同等场景。
用jieba分词向量化后,走嵌入意图分类器进行分类; 关键字匹配意图分类器做分类 crf/mitie模型; 槽位识别(支持人工标签)。
利用业务日志及媒资资源,比如标题、内容简介、标签、人物、台词等结构化内容、非结构化内容进行实体抽取、关系抽取、属性抽取和事件抽取,强化数据关系,转换成Schema.org国际标准化数据格式,分析推导出数据实体对象关联关系。 利用现有的业务数据来做动态增量,重点发展基于现有图谱数据的使用,发力意图识别,增强知识图谱使用场景。 图7 属性关系抽取
行业知识图谱以领域或企业内部的数据为主要来源,企业数据和业务变化灵活,数据源、数据结构、数据内容随时会发生变动,对业务的理解以及对数据的解读也随之发生变化。因此,建立实时敏捷、灵活可扩展、智能自适应的动态知识图谱尤为重要。
由于IT时代的快速发展,形成了数据的聚集,促进了DT时代的来临。当下大数据的采集分析和计算力已经不再是阻碍,数据与算法作为基础,为知识图谱的构建提供了新的可能性。与此同时,知识图谱在语义搜索、智能问答、数据分析、自然语言处理、视觉理解、物联网设备方面得到应用,并展现出越来越大的价值。
应 用 篇
我们的应用实践
图9 智能搜索效果图
做最懂世界杯的搜索
我们为了给世界杯用户带来更智能、更全面、更实时的全新搜索体验,通过对随意性语义理解、知识图谱及热点自动跟踪技术的创新突破,多维度提升搜索效果。
随意性语义理解依托实体识别、意图识别等能力,采用业内最前沿的深度学习网络框架,用于多维度精准识别用户搜索意图。实体识别方面,弥补了常规深度学习识别准确率较低的缺陷,将实体识别的准确率提升到95%以上。同时注入世界杯数据的ANSJ摘要算法,实现对世界杯球队、球员、比赛等专有名词更加精准地识别。意图识别基于目前最前沿的MITTE自然语言理解模型,结合自身非常强大的词向量识别技术和知识图谱关联数据智能标注,最终达到多维度精准识别奥运用户搜索意图的效果。在体育垂类场景,咪咕搜索的随意性语义理解能力已达到行业领先水平。
为保证搜索结果的全面性,保障用户世界杯一站式获得想要的搜索内容,咪咕基于得天独厚的体育资源,将知识图谱围绕冬奥赛事开展专项垂直优化,深度关联历届世界杯相关人、物等信息,分别打造综合类、项目类、人物类图谱模块,可触达往届世界杯的历史视频媒资内容等,同时关联其他咪咕内容链。体育垂直知识图谱赋能搜索结果更全面。
热点搜索的准确度与相关度是决定用户体验的重要因素。为保障全网热点内容的搜索实时性,咪咕搜索建立热点跟踪系统,实现全网热点自动监控并与站内资源匹配。
毫秒级的搜索速度,分钟级的热点更新速度,再加上智能联想提示,我们可以实现在咪咕视频上一键就能找到最想看的世界杯实时热点、精彩短视频、球星赛事集锦等,畅享最专业、最极致的世界杯体验。
展 望 篇
意图多样:用户查找的信息类型和方式多样。 业务多样:不同业务之间,用户的使用频率、选择难度以及业务诉求均不一样。 用户类型多样:搜索需要能深度挖掘到用户的各种偏好,实现定制化的“千人千面”的搜索。
发展与机遇
编辑:毕蕾、张涛、何薇
审核:单华琦、邢刚
[1] 刘宇 赵宏宇等.《智能搜索和推荐系统:原理、算法与应用》[M].机械工业出版,2021-01
[2] 博雅数据.《搜索系统的发展史》[OL] .知乎
[3] 华经艾凯(北京)企业咨询有限公司官方帐号,财经领域创作者.《2020年中国搜索引擎行业发展现状与背景研究,百度依旧一家独大》[OL].华商情报网,2021-05-26
[4] 佚名.《大众点评搜索基于知识图谱的深度学习排序实践》[OL]. CSDN,2020-06-18
[5] 艾瑞咨询.《2022年大搜索时代搜索商业价值研究报告》[R].微信公众号,2022-03-19
[6] 腾讯技术工程.《全面理解搜索Query:当你在搜索引擎中敲下回车后,发生了什么?》[OL] .知乎
[7] 智谷趋势高文轩.《电商的终极形态是元宇宙?这届双11给出了答案》[OL].中国日报中文网,2022-11-18
[8] 智能搜索引擎|驱动电商业务增长实践[OL].阿里云云栖号,2022-09-25
[9]BobinSun.知识图谱发展的难点&构建行业知识图谱的重要性[OL].知乎.2018-12-29 20:38
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。