query分析应用讲义

query分析应用讲义

ID:11420352

大小:2.49 MB

页数:20页

时间:2018-07-11

query分析应用讲义_第1页
query分析应用讲义_第2页
query分析应用讲义_第3页
query分析应用讲义_第4页
query分析应用讲义_第5页
资源描述:

《query分析应用讲义》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Query相关应用何仁清herenqing@baidu.comQuery分析是什么Query是用户与资源的桥梁Query分析是利用用户需求的手段Query分析方向Query变型变换Query需求分析多term合并权值计算Query分析都做什么检索的基本过程在系统中的位置query生成查询term检索倒排索引倒排索引(大库、VIP库、wdn,小时库等)term1term2Term所在网页:包含term权值、位置信息(offset)多termmerge(rank过程)前端(BWSUIASM)查询结果Query’Merge

2、结果BSDA(同义词省略需求分析……)切词、粘接、紧密度计算、query变换Term重要性、同义merge、offset限制同义词替换,query省略、需求分析特殊结果插入和控制(主动纠错、关联query、需求提权、同义词展现控制)ASM、UI共现数据二元、三元(正在统计)Bigram、句子级、篇章级全库title、网页、query作用Term与term在网页分布数量Term的搭配关系应用同义词**省略**Offset、粘接*主线:共现数据在query分析的应用case魔兽sf=“魔兽私服”“魔兽世界私服”丁香承认社

3、区=“丁香成人社区”怎么忘歌手:周渝民=“怎么忘周渝民”目的不同表达方式归一话(同义词)纠正输入错误(纠错)简洁的、无冗余的表达(省略)Query变型变换同义词的重要性重要的语义资源主要应用:query变换、内容分析同义词定义意义相同或相近,例如“大夫—医生”一定语境下表示相同语义,“小结—总结”,“工作小结—工作总结BaiduVSGoogle都进行同义词替换,整体情况差不多Google特点英文类同义词覆盖率“lastfriend”单字类同义词飘红“魔兽sf”Baidu特点注重热门、中文同义词概要学术界Hownet同

4、义词词林::例子(我咱俺余吾予侬咱家本人身个人人家斯人)遇到的问题大量未登录词(超女、超级女声,SF、私服)面向query变换,考虑query上下文语境。同义词基本类型中英文:nokia、诺基亚实体词别称:金银花、忍冬花实体词缩写:北京大学、北大通用普通词:变小、减小基本思想尽量避开语义层次研究,采用多种方法进行资源挖掘定向挖掘中英文准确、覆盖面少模板挖掘模板训练:同义词种子挖掘模板模板匹配:Xxx又叫xxxx,全库网页挖掘覆盖较好、准确率低、与query同义词不对应相关性挖掘利用wordsim计算最相关词语相关不一

5、定同义上下文挖掘Query相同上下文结合wordsim相关性若干抽取算法、规则同义词资源挖掘难点转义风险:没有完全同意的词语义分析:缺少成熟、实用的语义分析方法可行的方法直接替换:简单;同义词质量控制转义上下文分析:分析替换query语义。如何识别语义是否发生变化呢?思路的转换Query语义合理->最紧密上下文语义合理识别语义变化->识别资源丰富度后验信息辅助:用户行为同义词应用基本思想替换后语义合理性->最紧密term搭配合理性同义词A、B的共性有共同的常见搭配CC与A、B的共现分布相同语义->统计的转化,仍热有风

6、险规则:针对不同类别同义词,制定特殊规则后验调整:用户反馈对资源、策略的调整基于共现的同义词替换判断基本方法选取上下文:结合紧密的term(1~2个)替换后共现符合阈值(不能明显降低)同义词本身相关性,指导阈值特殊规则(单字、后缀)后延调整退场机制资源、策略自动调整基于共现的同义词替换判断目的去除冗余信息,获取更多资源case强奸之制服诱惑为什么我把歌曲下载到mp3上它却说格式错误呢?漆包线用强力涂膜剥离剂天龙怎么坐骑做动作影响省略因素资源的数量与质量:省略后有更多更优质结果语义分析:省略后保证基本语义未变Query

7、、网页类型:问答类query、视频query。省略概述为什么用户输入模式:自然表达,非关键字模式搜索引擎模式:关键字检索,准确、简单的描述要求冗余信息影响结果召回:作用扩大召回:减少term数,增加结果数提升检索相关性:冗余类型结构性冗余:聚丙二醇少量订购语义冗余:windowsxp操作系统启动省略概述结构冗余省略词的挖掘Patterm的识别语义冗余上下位词挖掘:手机诺基亚P(A

8、B):A与B的条件概率问题如何知道应该触发省略省略词直接省略风险较大资源挖掘困难:上下位条件概率覆盖率低省略的难点思路转变触发省略条件:检

9、索结果较差冗余信息识别->中心词+保留词(其余均可省略中心词表意能力强:term的独立性Query中包含多个中心词,构成query的核心层次。中心词+共现信息的省略与中心词的常见搭配term,可以保留其他term可以省略优缺点触发条件:转义风险与省略收益的平衡中心词+共现:有一定理论支持,但对于资源过少query误判较多,存在过激省略问题(语义

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。