网易视频云:搜索意图识别浅析.doc

网易视频云:搜索意图识别浅析.doc

ID:49531664

大小:443.51 KB

页数:5页

时间:2020-03-02

网易视频云:搜索意图识别浅析.doc_第1页
网易视频云:搜索意图识别浅析.doc_第2页
网易视频云:搜索意图识别浅析.doc_第3页
网易视频云:搜索意图识别浅析.doc_第4页
网易视频云:搜索意图识别浅析.doc_第5页
资源描述:

《网易视频云:搜索意图识别浅析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、vcloud.163.com网易视频云:搜索意图识别浅析网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云与大家分享一下搜索意图识别浅析。对于搜索引擎来讲,很多情况下只需要用户在搜索输入框内输入所需要查询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引擎会优先返回用户想要的

2、结果。理想很丰满,但总会存在一些骨感的现实,用户通过搜索无法找到最想要的结果。如果应用中压根不存在用户搜索的内容,倒还可以理解。反之的话,就是一个大写的尴尬。本文主要谈论和解决的是令人尴尬的问题。 为什么会搜索不到1、不同的用户对同一种诉求的表达往往是有差别的,往往会存在一种比较常见的现象,用户输入的query并不能清晰准确的表达需求。2、搜索系统对用户query的理解能力较弱,无法挖掘出用户的真实需求。3、召回结果集的排序不合理,可能用户需求的内容被排在后面而未曝光。以上几点大概是用户无法找到需求内容的主要原因,本文主要讨论的

3、是前两点,主要是想解决如何更好的理解用户的需求并进行准确的召回,进而对第三点所涉及到的排序起到积极作用。用户作为一个使用主体,其知识水平和表达能力会有差异,当不同用户想搜索同一个商品时所输入的query会存在差别,具体如下所示:可见,对于同一个商品往往会对应不同的query,相对精确的有“蔓越莓胶囊欧洲”、“blackmore蔓越莓”;品牌优先的有“blackMores”;功效优先的有“女士痛经”,”泌尿系统感染”;输入错误的有”蔓越梅”,输入别名的有”圣洁莓”;输入较模糊的有“妇科”,“炎症”。所以说用户的输入一般会存在表达差

4、异,词汇差异,需求明确性差异等。vcloud.163.com要想解决这些问题就需要通过用户输入的query来获取用户的真实需求,本文把对用户输入的理解称为QueryParser,包含:query切分(分词),query意图识别,query改写(query扩展/query纠错/query删除等),接下来本文主要针对query意图识别和query改写结合在考拉海淘搜索中的具体应用来和大家聊聊。 1.query意图识别本文主要针对垂直搜索进行介绍,不同的垂直引擎中的query会有自己的特点。像去哪儿网的日志中肯定有很多“城市a到城市b

5、的机票”这种pattern的query,而电商网站中肯定大部分是“产品/品牌/型号/款式/价格”等类型数据的组合,音乐类应用中大部分应该是艺人和歌曲名相关的query。相比通用搜索而言,垂直搜索可能更针对性的挖掘用户的意图。1.1意图识别的难点1、输入不规范,前文中已有介绍,不同的用户对同一诉求的表达是存在差异性的。2、多意图,查询词为:”水”,是矿泉水,还是女生用的化妆水。3、数据冷启动。当用户行为数据较少时,很难获取准确的意图。4、没有固定的评价标准。pv,ipv,ctr,cvr这种可以量化的指标是对搜索系统总体的评价,具体

6、到用户意图的预测上并没有标准的量化指标。1.2意图识别的方法1.2.1词表穷举法这种方法最简单暴力,通过词表直接匹配的方式来获取查询意图,同时,也可以加入比较简单并且查询模式较为集中的类别。·查询词:德国[addr]爱他美[brand]奶粉[product]三段[attr]·查询模式:[brand]+[product];[product]+[attr];[brand]+[product]+[attr]当然查询模式是可以做成无序的。这种意图识别的方式实现较为简单,能够较准确的解决高频词。由于query一般是满足20/80定律,20

7、%的query占据搜索80%的流量。但是,80%得长尾query是无法通过这种方式来解决的,也就是说这种方式在识别意图的召回可能只占20%。同时,需要人工参与较多,很难自动化实现。1.2.2规则解析法这种方法比较适用于查询非常符合规则的类别,通过规则解析的方式来获取查询的意图。比如:·北京到上海今天的机票价格,可以转换为[地点]到[地点][日期][汽车票/机票/火车票]价格。·1吨等于多少公斤,可以转换为[数字][计量单位]等于[数字][计量单位]。这种靠规则进行意图识别的方式对规则性较强的query有较好的识别精度,能够较好的

8、提取准确信息。但是,在发现和制定规则的过程也需要较多的人工参与。1.2.3机器学习方法vcloud.163.com意图识别其实可以看做是一个分类问题,针对于垂直产品的特点,定义不同的查询意图类别。可以统计出每种意图类别下面的常用词,对于考拉海淘而言,可以统计出类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。