网易视频云:搜索意图识别浅析

网易视频云:搜索意图识别浅析

ID:42648293

大小:121.00 KB

页数:5页

时间:2019-09-19

网易视频云:搜索意图识别浅析_第1页
网易视频云:搜索意图识别浅析_第2页
网易视频云:搜索意图识别浅析_第3页
网易视频云:搜索意图识别浅析_第4页
网易视频云:搜索意图识别浅析_第5页
资源描述:

《网易视频云:搜索意图识别浅析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、网易视频云:搜索意图识别浅析网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教冇、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云与大家分享一下搜索意图识别浅析。对于搜索引擎來讲,很多情况下只需要用户在搜索输入框内输入所需要査询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引象会优先返回用户想要的结果。理想很丰满,但总会存在一些骨感的现实,用户通过搜索无法找到授想耍的结果。如果

2、应用中压根不存在用户搜索的内容,倒还可以理解。反之的话,就是一个大写的尴尬。本文主要谈论和解决的是令人尴尬的问题。为什么会歸不到1、不同的用户对同一种诉求的表达往往是冇差别的,往往会存在-•种比较常见的现象,用户输入的query并不能清晰准确的表达需求。2、搜索系统对用户query的理解能力较弱,无法挖掘出用户的真实需求。3、召回结果集的排序不合理,可能用户需求的内容被排在后面而未曝光。以上儿点大概是用户无法找到需求内容的主耍原因,木文主要讨论的是前两点,主要是想解决如何更好的理解用户的需求并进行准确的召回,进而对第三点所涉及到的排序起到积极作用。用户作为一个使用主体,其知识水平和

3、表达能力会有差界,当不同用户想搜索同一个商品时所输入的query会存在差别,具体如下所示:澳佳宝blackmores蔓越;痛经;圣洁;圣洁莓精华;澳洲佳宝;泌尿系统感染;blackmores澳佳宝;澳大利亚blackmores;蔓越莓澳佳宝;女性保养;蔓越莓;绝经;蔓月莓;blackmores圣洁莓;月蔓;裸版胶囊;;女人;澳洲;月经;蔓越莓胶囊澳洲;胶囊;女士痛经;蔓越梅胶囊;澳佳美;妇右炎症;blackmore;卵巢囊;澳^Hblackmores女性;宫颈;女性美容;澳隹宗至洁莓;妇禾斗保养;内分泌;manyuemei;谪理月经;美少女;越曼莓;澳洲blackmores澳佳宝;

4、女士宝;思瑞;澳洲的蔓越®;blackmores蔓越莓;子宫;女性妇科;子宫保养;圣莓洁;羊胎素胶囊;澳洲杜虫;蔓越莓精华胶囊;blackmore蔓越莓;美国自然之宝蔓越莓;蔓越莓精华;女宫;保护子宫;奥佳宝;blacksmore;痛经少女;泌尿;女人妇科;佳宝;blackmores圣洁;曼越梅;女生内分泌;圣洁38;澳佳;蔓越莓肢靈;炎症;蔓越酶;蔓越;妇科;b"ckmores圣洁莓精华;莓;月洁莓;蔓越梅;澳洲蔓越莓;澳洲奥佳宝;可见,对丁•同一个商品往往会对应不同的query,和对粹确的有“蔓越莓胶囊欧洲”、“blackmore蔓越痒';品牌优先的有“blackMores”;

5、功效优先的有“女士痛经”,”泌尿系统感染”;输入错误的有”蔓越梅”,输入别名的有”圣洁莓”;输入较模糊的有“妇科”,“炎症”。所以说用户的输入一般会存在表达差异,词汇差异,需求明确性差异等。要想解决这些问题就需要通过用户输入的query來获取用户的真实需求,木文把对用户输入的理解称为QueryParser,包含:query切分(分词),query意图识别,query改写(query扩展/query纠错/query删除等),接下来本文主要针对query意图识别和query改写结合在考拉海淘搜索中的具体应用来和大家1.query意图识别木文主耍针对垂直搜索进行介绍,不同的垂直引擎中的q

6、uery会有自己的特点。像去哪儿网的日志中肯定有很多“城市a到城市b的机票”这种pattern的query,而电商网站屮肯定大部分是“产品/品牌/熨号/款式/价格”等类型数据的组合,音乐类应用中大部分应该是艺人和歌曲名相关的query。相比通用搜索而言,垂直搜索可能更针对性的挖掘用户的意图。1.1意图识别的难点1、输入不规范,前文中已有介绍,不同的用户对同一诉求的表达是存在差弄性的。2、多意图,査询词为:”水”,是矿泉水,还是女生用的化妆水。3、数据冷启动。当用户行为数据较少时,很难获取准确的意图。4、没有固定的评价标准。pv,ipv,ctr,cvr这种可以量化的指标是对搜索系统总

7、体的评价,具体到用户意图的预测上并没有标准的量化指标。1.2意图识别的方法1.2.1词表穷举法这种方法最简单暴力,通过词衣玄接匹配的方式來获取查询意图,同时,也可以加入比较简单并且查询模式较为集中的类别。查询词:德国[addr]爱他美[brand]奶粉[product]三段[attr]查询模式:[brand]+[product];[product]+[attr];[brand]+[product]-i-[attr]当然查询模式是可以做成无序的。这种意图识别的方式实现较

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。