阿里云-开放搜索服务最佳实践-D

阿里云-开放搜索服务最佳实践-D

ID:35885663

大小:221.98 KB

页数:13页

时间:2019-04-22

阿里云-开放搜索服务最佳实践-D_第1页
阿里云-开放搜索服务最佳实践-D_第2页
阿里云-开放搜索服务最佳实践-D_第3页
阿里云-开放搜索服务最佳实践-D_第4页
阿里云-开放搜索服务最佳实践-D_第5页
资源描述:

《阿里云-开放搜索服务最佳实践-D》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、开放搜索最佳实践开放搜索/最佳实践最佳实践功能篇分词、匹配、相关性、排序表达式针对目前若干用户遇到的搜索结果与预期不符合的问题进行统一详细说明,并以此为话题展开说明下opensearch在搜索效果方面的功能和后续一些工作方向。首先,对于搜索来讲,最常见的有两种做法:1.数据库的like查询,可以理解为简单的包含关系;2.百度、google等搜索引擎,涉及到分词,将查询词根据语义切分成若干词组term(这个是搜索引擎重难点之一),通过term组合匹配给相应文档进行打分,根据分值排序,并最终返回给用户。opensearch采用

2、的方式与上述搜索引擎做法基本一致。那这里就有三部分内容会影响搜索效果:1,分词方式;2,匹配方式;3,相关性算分。我们来分别说下这三部分在opensearch上的行为和表现。分词方式原理分词会在两个地方使用:1.索引构建时:接收到用户推送文档后,会根据用户定义的应用结构,取出其中为TEXT、SWS_TEXT字段进行分词,将对应文档内容分成若干term(如"浙江大学"拆分成2个term:"浙江"和"大学"),并针对每个索引字段配置(可搜索的索引字段)构建term到文档doc的倒排链表,用于快速召回使用;2.查询时:将查询词进

3、行分词,按照切完后的term查找倒排链,从而找到(召回)包含该term的文档。由此可见,这两部分的分词方式必须一致,否则会出现对应文档无法召回的情况。接下来,我们详细说明下各个字段的展现效果及适用场景,供大家参考。12开放搜索/最佳实践STRING如文档字段内容为"菊花茶",则只有搜索"菊花茶"的情况下可以召回。不分词,适合一些需要精确匹配或者只展示不搜索的场景,如标签、关键词、url等。TEXT、MWS_TEXT如文档字段内容为"菊花茶",则搜索"菊花茶"、"菊花"、"茶"、"花茶"的情况下可以召回。按照检索单元做分词,

4、适合有语义的中文搜索场景,如标题、文本等,MWS_TEXT是TEXT的扩展,会召回更多的内容,建议使用MWS_TEXT。SWS_TEXT如文档字段内容为"菊花茶",则搜索"菊花茶"、"菊花"、"茶"、"花茶"、"菊"、"花"、"菊茶"的情况下可以召回。按照单字/单词分词,适合非语义的中文搜索场景,如小说作者名称、店铺名等;SHORT_TEXT短文本模糊搜索,支持拼音搜索、数字的前后缀搜索、单字或者单字母搜索。最多支持100个字节字段长度如文档字段内容为"菊花茶",则搜索"菊花茶"、"菊花"、"茶"、"花茶"、"菊"、"花"

5、、"菊茶"、"ju"、"juhua"、"juhuacha"、"j"、"jh"、"jhc"等情况下可以召回。如文档字段内容为手机号"13812345678",则通过"^138"来搜索以"138"开头的手机号,通过"5678$"搜索以"5678"结尾的手机号;如文档字段内容为"OpenSearch",则通过单个字母或者组合都可以检索到。,更多介绍及注意事项参见模糊搜索使用说明ENG_TEXT如文档字段内容为"英文分词器englishanalyzer",则搜索"英文分词器"、"english"、"analyz"、"analyze

6、r"、"analyzers"、"analyze"、"analyzed"、"analyzing"。(注意:英文分词器中连续的中文会被分成一个词)英文分词,适合于英文搜索场景,对于分词后的每个英文单词默认会做去词根、单复数转化。NWS_TEXT自定义分词,适合特殊场景下系统自带无法解决的搜索场景,可以实现完全用户控制的效果。推送文档及搜索时使用制表符"t"对字段内容(或查询词)进行分隔,注意二者分词的一致性,否则会导致无法召回文档的情况。12开放搜索/最佳实践如字段内容为"菊t花茶thao",则只有查询词"菊"、"花茶"

7、、"菊t花茶"、"花茶thao"、"菊thao"、"菊t花茶thao"可以召回该文档。后续工作1.增加对小语种的支持,如俄语、葡语、日语等。使用技巧1,在一些召回不好的情况下,可以采用TEXT和SWS_TEXT字段结合的方式来保证搜索效果的同时提高召回率。具体做法为定义两个相同内容的字段分别为title(TEXT)及sws_title(SWS_TEXT),并分别建立索引字段为title_search、sws_title_search。则查询词为query=title_search:'keyword'ORsws_t

8、itle_search:'keyword',并设置精排表达式为text_relevance(title)*10+field_proximity(sws_title),在保证相关性的同时保证召回。匹配方式原理分完词后得到若干term,如何召回文档,就涉及到匹配方式。目前opensearch内部默认支持的是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。