写在前面卡塔尔世界杯开赛第四天了,咪咕通过“内容+科技+融合创新”,全量全场次赛事直播、5G黑科技、解说天团等,为观众带来“5G+全体育”全场景沉浸式观赛体验,率先引爆全民足球激情。想秒开世界杯精彩赛事吗,打开咪咕视频,智能搜索可以助你精准直达。今天我们一起探讨智能搜索的技术、应用和趋势。
全文约7000字,预计阅读18分钟

    背 景 篇    
随着互联网快速发展,信息爆炸式增长,如何在信息过载的环境下快速有效地定位到目标信息成为关键问题,搜索是解决信息过载较为有效的方式。
搜索的内涵
搜索,指带有目的性地寻找。从狭义上讲,信息检索就是指信息搜索;从广义上讲,信息检索包含搜索引擎、问答系统、信息抽取、信息过滤、信息推荐等。
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,将用户检索到的相关信息展示给用户,为用户提供检索服务。
搜索系统的概念可以从如下两方面解释。从系统角度来看,搜索系统是一个更广泛的概念,包括搜索引擎,具有相关性计算和分析的系统都可以归为搜索系统。除了我们常说的搜索引擎外,搜索系统还应该包括外部支持的业务场景和应用领域等特征。从用户角度来看,搜索系统的输出是对用户需求的投射,因此我们在设计搜索系统时需要观察用户对检索结果的反应,除此之外,还得考虑相应的应用场景以及搜索工程。
发展简史
1990年,世界上第一个Web服务器和第一个Web客户端,被命名为万维网(World Wide Web,WWW)。同年,第一个搜索引擎Archie出现,用于搜索FTP服务器上的文件,用户需要准确输入文件名获取文件地址。1995年,“目录导航”搜索引擎技术的代表Yahoo正式成立。Yahoo的技术提高了被收录网站的质量,缺点是不便于扩展,收录网站数量较少。1998年9月,PageRank链接分析技术的代表Google公司成立。Google公司充分利用网页之间的链接关系,考虑网页链入的数量和质量,从而计算网页的排名,大幅提升了搜索质量,使其成为占有搜索引擎市场份额最大的公司。
作为互联网网站和应用的入口,搜索引擎的地位越来越重要但是进入了移动互联网时代后,传统搜索引擎正逐渐失去流量,是用户更偏爱推荐不需要搜索了吗?其实传统搜索引擎的没落绝不意味着搜索价值的降低,而是搜索发展到第二阶段,拥有丰富优质内容生态的垂直搜索。以Facebook、微信、知乎、高德地图为代表,搜索结果也不仅限于文档,也可以搜索朋友、公众号、位置等,精准地契合用户搜索需求更为重要。
伴随着人工智能的发展,以算法为内容分发底层逻辑平台的涌现,跨APP内容搜索、垂直领域搜索及语音等AI搜索方式全面进入市场,第三代引擎也在悄然进化中。搜索行业,正式迈向智能搜索阶段,搜索已不限于有框输入,而是从用户的需求出发,支持更灵活便捷的多模态输入,搜索结果相比于传统返回相关列表方式,也逐渐转变到返回更直接有效的信息答案。
这一期我们就聊聊智能搜索的技术、应用和趋势。
     技 术 篇    
搜索是用户触达信息最简单直接的方式,是业务触达用户的必备功能。有观点认为用户现在不用搜索了,用其他形态的产品比如推荐替代了搜索?其实恰恰相反,两者殊途同归,最终搜索还是用户表达需求的最主要入口。伴随人工智能在搜索上的应用,搜索演进的速度也越来越快。
智能搜索总体基于Query理解,多路召回,内存重排框架,支持精确搜索、分词搜索、纠错搜索、语义搜索、关联搜索、多语言搜索、语音搜索等能力,为用户提供智能个性化的搜索体验。 
Query 理解
搜索三大模块的大致调用顺序是从Query理解到检索召回再到排序Query理解作为搜索系统的第一道环节为召回及排序模块提供基础特征很大程度影响召回和排序的质量同时理解程度决定搜索系统的智能程度
图1 Query理解使用能力
下面重点介绍在Query理解中使用的能力模块,是智能搜索系统的核心基础能力,均为我们团队自主研发。
预处理
预处理这个模块相对来说比较简单,主要对Query理解进行以下预处理从而方便其他模块进行分析:
全半角转换
:将在输入法全角模式下输入的
Query
转换为半角模式的,主要对英文、数字、标点符号有影响,如将“wechat123”全角输入转成半角模式下的“wechat 123”;

大小写转换
:统一将大写形式的字母转成小写形式;

繁简体转换
:将繁体输入转成简体的形式,考虑到用户群体的差异以及可能存在繁体形式的场景,有些情况还需要保留转换前的繁体输入用于召回;

无意义符号移除
:移除诸如火星文符号、emoji表情符号等特殊符号内容;

Query截断:对于超过一定长度的Query进行截断处理。
文本分词
Query分词就是将Query切分成多个term,如:“卡塔尔世界杯”切分成“卡塔尔 世界杯”两个term。分词作为最基础的词法分析组件,其准确性很大程度影响后面各个模块的处理,如分词及对应词性信息可用于后续的term重要性分析和意图识别等多个模块。同时,分词及其粒度需要与item侧索引构建的分词及粒度保持一致,从而才能进行有效地召回。目前分词技术相对来说比较成熟,主要做法有基于词典进行前后向最大匹配、对所有成词情况构造DAG、hmm/crf序列标注模型以及深度学习模型+序列标注等。
自有分词能力在业界主流分词算法的基础上,优化了在分词阶段的 “阶段分词的改进算法”,其整体分词流程和相关技术如下:
基于词典方法,通过使用基于阶段分词的改进,在进行最优路径规划之后,召回森林上叶子节点的前一个节点,针对分词结果进行回补,扩大分词的粒度,拆分出更多有利分词组合。
图2 最优路径算法
基于统计的算法,采用N-gram模型和隐马尔可夫模型计算得出分词结果;
基于语义词典的算法,提取出核心关键词,为搜索提供精准分词。
图3 三种分词方式
纠错能力
Query纠错,顾名思义,也即对用户输入Query出现的错误进行检测和纠正的过程。用户在使用搜索过程中,可能由于先前知识掌握不够或输入过程引入噪音(如:语音识别有误、快速输入手误等)导致输入的搜索Query会存在一定的错误。如果不对带有错误的Query进行纠错,除了会影响其他模块的准确率之外,还会影响召回的相关性及排序的合理性,最终影响到用户的搜索体验。
搜索自有纠错能力把Query中错误的词语,通过纠错技术结合纠错词典纠正为正确的词语,纠错技术包括 容错索引方法、语义理解算法、形近字识别算法、形声字声旁识别算法、英文编辑距离计算等技术对错误词语进行纠正,并结合搜索场景支持多类型组合纠错。
支持型纠错类型:包括多音字、同音字、模糊音、形近字、多字少字等各类型错误。
多类型组合纠错包括拼音汉字混合、繁简汉字组合、结合场景的不同实体组合纠错等灵活的纠错方式。 
识别用户输入的搜索文本中的错误,并予以改正,使搜索采用正确的文本,提高搜索的准确度
图4 支持纠错类型
词权重算法
智能搜索在词权重开源模型textRank和tf-idf的基础之上,整合XGBoost决策模型,以及其他的模型特征,自主训练特征权重,最终按照得分召回相关关键词。基于Feature+ML方案,使用XGBoost基于特征设计+机器学习回归模型预测词权重得分。
term静态特征包含:idf值、词频、term长度、term词性、词位置、是否停用词、是否语气词、是否专有名词(人名/地名)等;
term交互特征包含:term长度占query长度比值、text-rank值、term在query中相对位置等;
ngram特征包含:该term的ngram统计特征、以该term开始的ngram统计特征、以该term结尾的ngram统计特征等。
词权重训练数据采用用户的海量query-title词,对近3个月的日志数据构建训练,实时更新,充分保证词权重训练效果。
图5 词权重算法
语义理解能力
语义理解能力是一种基于自然语言进行语义信息分析的方法,不仅进行词法分析和句法分析这类语法水平上的分析,而且还涉及单词、词组、句子、段落所包含的意义,目的是用句子的语义结构来表示语言的结构。语义分析技术包括词法分析、句法分析、语用分析、语境分析、自然语义处理等。
智能搜索语义分析采用了业内最前沿的深度学习网络框架,包括基于ANSJ的CRF模型、TEXTRANK深度学习模型和基于RASA深度学习的语义认知服务框架。结合知识图谱,识别搜索方向,精确识别出用户意图,让搜索结果更加贴近用户需要。自然语义理解通过语法、语义、语用的分析,获取自然语言的语义表示。我们用意图(intent)、词槽(slot)来表示语义。针对不同用户意图,可以设计多样化展示的搜索结果页。
最常见的语义分析场景:
  • 配合解决搜索长词分词太细,召回内容不相关的问题;
  • 非传统标题匹配:标签、分类、其他信息(角色、观众、人物关系等)、类似XX的电影;
  • 复杂搜索:多词、多实体、多过滤条件搜索(如:最近大陆男歌手唱的流行歌曲,周杰伦唱的歌,周杰伦写的歌,胡彦斌);
  • 偏口语化表达(如:我想听XXX”中的“我想听”不作为关键词做检索);
  • 个性化搜索词:如:最新、最热、好评等,可实现按照指定词进行倒排内容;
  • 多意图分析,如1942既是电影,又可以理解年代,周星驰是演员同时也可能是一部影视剧的名称,角色和演员名称相同等场景。
意图分类AI模型使用rasa nlu框架训练,主要算法如下:
  • 用jieba分词向量化后,走嵌入意图分类器进行分类;
  • 关键字匹配意图分类器做分类 crf/mitie模型;
  • 槽位识别(支持人工标签)。
图6 语义识别场景图
知识图谱能力
一种靠关系和属性来表达实体的形式,知识获取从不同来源、不同结构的数据中进行知识提取,形成结构化的知识并存入到知识图谱。我们研发了通用知识图谱行业知识图谱两种图谱,以下重点介绍行业知识图谱。
  • 利用业务日志及媒资资源,比如标题、内容简介、标签、人物、台词等结构化内容、非结构化内容进行实体抽取、关系抽取、属性抽取和事件抽取,强化数据关系,转换成Schema.org国际标准化数据格式,分析推导出数据实体对象关联关系。
  • 利用现有的业务数据来做动态增量,重点发展基于现有图谱数据的使用,发力意图识别,增强知识图谱使用场景。
    图7 属性关系抽取
智能搜索在体育领域广泛使用了图谱内容,包括:球员、球队、国家关系、队伍关系、赛季关系、赛事关系、奖牌关系、获奖数据统计、排名、体育人物关系、阵容、大项和小项的关系等,提升内容理解准确度和内容关联深度,为搜索功能提供了基础。
图8 知识图谱实现流程图
论行业知识图谱的重要性
行业知识图谱以领域或企业内部的数据为主要来源,企业数据和业务变化灵活,数据源、数据结构、数据内容随时会发生变动,对业务的理解以及对数据的解读也随之发生变化。因此,建立实时敏捷、灵活可扩展、智能自适应的动态知识图谱尤为重要。
由于IT时代的快速发展,形成了数据的聚集,促进了DT时代的来临。当下大数据的采集分析和计算力已经不再是阻碍,数据与算法作为基础,为知识图谱的构建提供了新的可能性。与此同时,知识图谱在语义搜索、智能问答、数据分析、自然语言处理、视觉理解、物联网设备方面得到应用,并展现出越来越大的价值。
   应 用 篇   
当前的搜索,面对的内容生态的高度繁荣,搜索渠道的多元化,搜索方式的智能化,以及用户需求、习惯的复杂性。用户对搜索的需求也从期望获得“答案”升级到了希望得到更多有内涵的“价值”。科技公司都在尝试着自己的探索,产品越来越聚焦具体应用场景,展示结果看不断创新,从提供答案向提供服务和解决问题的方向发展 。搜索表达形式从文字向语音、视觉等多元化方向发展,搜索终端由PC端/手机端向智能家居、智能车载等设备延伸。
比如基于智能设备面向服务的搜索,以安卓手机的负一屏搜索为例,搜索框可以替换我们日常的多个APP的搜索效果。不仅可以提供通用搜索引擎的查询服务,如进行单位换算,查询节假日,新闻资讯、图片、视频等;还可以完成手机内部搜索,快速打开某个APP,或者某个具体功能;还可以一键搜索安装应用、购物、打车、查询快递等。
此外还有应用内搜索,以微信搜索为例,首先可以完成微信本地内容搜索,如联系人、聊天内容、朋友圈等;此外还可以完成微信生态内部通用搜索,如公众号、小程序、视频号等内容搜索;此外还提供基于图片的“搜一搜”,可以智能的根据具体内容提供不同服务,如提取文字、翻译、辨认植物、识别商品如衣服、识别地理位置等,还可以基于肖像搜索相似明星脸,和AIGC结合快速生成表情包,卡通形象等。
面向行业开放方面,以阿里的开放搜索业务中台为例,基于大数据深度学习在线服务体系打造的智能搜索云服务产品。其拥有核心引擎、召回排序、搜索引导、充分开放等能力,可应用在电商行业、教育行业、内容行业等场景。目前帮助数千家客户搭建自己的搜索业务,将核心能力云化快速对外开枝散叶。
我们的应用实践
咪咕智能搜索属于垂直型搜索,在自有业务领域内深耕优化,已完成全系产品接入,包括咪咕视频、咪咕音乐、咪咕阅读在内的重点APP,还包括咪视通、游戏TV等家庭产品。系统已稳定运行4年+,性能强大、稳定高效,可提供多模态精准智能的搜索能力。
咪咕智能搜索系统依托精准、高效、智能的服务能力,在移动集团推动全场景搜索的落地应用,与省公司对接实现移动掌厅的搜索,并与省公司合作实现“小屏搜大屏”的特色搜索能力,并且合作探索实现了江淮汽车车载系统的搜索功能。
当前智能搜索系统已承接咪咕参与的各大型体育赛事活动,在内容运营,尤其是体育赛事、音乐等垂直领域已具有丰富的经验和技术积累。
图9 智能搜索效果图
做最懂世界杯的搜索
我们为了给世界杯用户带来更智能、更全面、更实时的全新搜索体验,通过对随意性语义理解、知识图谱及热点自动跟踪技术的创新突破,多维度提升搜索效果。
随意性语义理解依托实体识别、意图识别等能力,采用业内最前沿的深度学习网络框架,用于多维度精准识别用户搜索意图。实体识别方面,弥补了常规深度学习识别准确率较低的缺陷,将实体识别的准确率提升到95%以上。同时注入世界杯数据的ANSJ摘要算法,实现对世界杯球队、球员、比赛等专有名词更加精准地识别。意图识别基于目前最前沿的MITTE自然语言理解模型,结合自身非常强大的词向量识别技术和知识图谱关联数据智能标注,最终达到多维度精准识别奥运用户搜索意图的效果。在体育垂类场景,咪咕搜索的随意性语义理解能力已达到行业领先水平。
为保证搜索结果的全面性,保障用户世界杯一站式获得想要的搜索内容,咪咕基于得天独厚的体育资源,将知识图谱围绕冬奥赛事开展专项垂直优化,深度关联历届世界杯相关人、物等信息,分别打造综合类、项目类、人物类图谱模块,可触达往届世界杯的历史视频媒资内容等,同时关联其他咪咕内容链。体育垂直知识图谱赋能搜索结果更全面。
热点搜索的准确度与相关度是决定用户体验的重要因素。为保障全网热点内容的搜索实时性,咪咕搜索建立热点跟踪系统,实现全网热点自动监控并与站内资源匹配。
毫秒级的搜索速度,分钟级的热点更新速度,再加上智能联想提示,我们可以实现在咪咕视频上一键就能找到最想看的世界杯实时热点、精彩短视频、球星赛事集锦等,畅享最专业、最极致的世界杯体验。
    展 望 篇    
挑战与探索
搜索当前仍然是各产品APP上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为搜索带来了巨大的挑战。
  • 意图多样:用户查找的信息类型和方式多样。
  • 业务多样:不同业务之间,用户的使用频率、选择难度以及业务诉求均不一样。
  • 用户类型多样:搜索需要能深度挖掘到用户的各种偏好,实现定制化的“千人千面”的搜索。
综上再叠加上时间、空间、场景等维度,使得搜索面临比通用搜索引擎更加独特的挑战。而解决这些挑战的方法,就需要提升NLP、知识图谱等技术,进行深度查询理解以及深度评价分析,并依赖知识图谱技术和深度学习技术对搜索架构进行整体升级。
技术方面未来依然有不少可以探索的点。比如个性化方面,对已有用户行为数据进行建模来理解用户,以便更精准地提供搜索服务;算法方面,图神经网络建模等在搜索上应用。
发展与机遇

智能搜索的新发展阶段,呈现出生态上的变化:多元渠道+多元内容+多元的搜索方式,其带来的结果是——用户开始习惯按内容选平台,用户的互联网时间被各大垂直媒体划分,搜索习惯发生了不可逆的新局面:从传统平台搜索转向多元搜索,去中心化明显。
智能搜索除了提供基本搜索功能,还能提供用户兴趣自动识别、内容语义理解、信息过滤和推送等功能,具备知识处理能力和理解能力,能够把信息检索从目前基于关键词层面提高到基于知识和概念层面。搜索结果也更加人性化、更贴近用户需求,响应速度更快、搜索效率更高,呈现出智能化、个性化、场景化、多元化的发展趋势。
元宇宙的发展正在推动搜索行业的又一次升级。随着移动互联网红利的消退,元宇宙作为虚拟世界和现实世界融合的载体,蕴含着社交、内容、游戏、办公等场景变革的巨大机遇,传统数字科技企业和新兴初创企业都想抓住未来赛道机遇。搜索引擎作为互联网的传统入口之一,在元宇宙时代也必然会有重大变化和机遇。
推荐阅读:智能推荐:猜你所想
编辑:毕蕾、张涛、何薇
审核:单华琦、邢刚
【参考文献】
[1] 刘宇 赵宏宇等.《智能搜索和推荐系统:原理、算法与应用》[M].机械工业出版,2021-01
[2] 博雅数据.《搜索系统的发展史》[OL] .知乎
[3] 华经艾凯(北京)企业咨询有限公司官方帐号,财经领域创作者.《2020年中国搜索引擎行业发展现状与背景研究,百度依旧一家独大》[OL].华商情报网,2021-05-26
[4] 佚名.《大众点评搜索基于知识图谱的深度学习排序实践》[OL]. CSDN,2020-06-18
[5] 艾瑞咨询.《2022年大搜索时代搜索商业价值研究报告》[R].微信公众号,2022-03-19
[6] 腾讯技术工程.《全面理解搜索Query:当你在搜索引擎中敲下回车后,发生了什么?》[OL] .知乎
[7] 智谷趋势高文轩.《电商的终极形态是元宇宙?这届双11给出了答案》[OL].中国日报中文网,2022-11-18

[8] 智能搜索引擎|驱动电商业务增长实践[OL].阿里云云栖号,2022-09-25

[9]BobinSun.知识图谱发展的难点&构建行业知识图谱的重要性[OL].知乎.2018-12-29 20:38
继续阅读
阅读原文