数码产品搜索引擎主题词典的构建方法

数码产品搜索引擎主题词典的构建方法

ID:5300163

大小:249.90 KB

页数:4页

时间:2017-12-07

数码产品搜索引擎主题词典的构建方法_第1页
数码产品搜索引擎主题词典的构建方法_第2页
数码产品搜索引擎主题词典的构建方法_第3页
数码产品搜索引擎主题词典的构建方法_第4页
资源描述:

《数码产品搜索引擎主题词典的构建方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第26if-第2期新疆教育学院学报Vo1.26,No.22010年6月JOURNALOFXINJIANGEDUc垒!璺!!!垦Jun.,2010数码产品搜索引擎主题词典的构建方法朱雪莲(新疆艺术学院基础部,新疆乌鲁木齐830002)摘要:文章概述主题搜索引擎原理,介绍了高性能的全文检索引擎~Lucene开源系统,在分析Lucene语言分析器结构的基础上,得出基于Lucene的数码产品搜索引擎的主题词典的具体构建方法,并针对词典的更新做了初步探讨,总结了基于用户查询日志的主题词典构建方法。关键词:Lucene;主

2、题搜索引擎;主题词典中图分类号:TP3文献标识码:A文章编号:1008-3588(2010)02一ol17—04要求的,因此针对主题搜索引擎在进行信息检索1.引言时就需要一个特定的主题式分词词典。文章就数码产品搜索引擎主题词典的构建采用通用词典和搜索引擎已经成为人们获取网络信息的主要专用词典相结合的方法,并对词典的更新采用基工具,其中全文检索技术是学者研究的热点。在于用户查询日志的主题词典构建方法。进行全文检索时,由于中文汉字与英文字母在编码规则上有所不同,因此,搜索引擎在进行信息检2.主题搜索引擎和lucen

3、e工具包索时需要采用一种与处理英文信息所不同的处理方式,即中文分词技术来处理中文信息。Lucene2.1主题搜索引擎的基本原理是一个用Java写的全文索引/检索工具包,它可主题搜索引擎工作时要按照一定的规律和方以方便地嵌入到各种应用中,实现针对具体应用式运行特定的网络信息爬行器,定期或不定期的的全文搜索引擎功能,而其中的语言分析器已经搜索Internet各个站点,并将收集到的Web上相能够支持世界上大多数语言,也包括中文汉字。关主题信息资源送回到搜索引擎的临时数据库。目前,Lucene中已有中文单字、双字分词和

4、词典为了保证用户查找信息的精度和新鲜度,搜索引分词机制,在词典分词机制中采用最大向前匹配,擎需要建立并维护一个索引数据库。在Web的最大向后匹配,最小向前匹配,最小向后匹配切分客户端,提供特定的检索界面,供用户以一定的方策略。基于词典的分词方法是从连续字串中切分式输入检索条件并提交给系统,系统通过特定的出与词典中的词相匹配的字串作为词。因此,词检索软件检索其索引数据库,并从中获得与用户典的完善程度将主要影响中文分词的性能。如何检索相匹配的查询结果,将其返回客户端,供用户建立词典已经成为中文分词中的一个重要研究问

5、浏览。搜索引擎主要由四部分组成,即信息采集题。基于字典的分词方法能识别出文档中出现的器(Robot或Sider或Crawler)、分析索引器(In—任何词是基于这样一个假设,即存在一个完备的dex)、检索器(Searcher)和用户接口。词典包括所有可能出现的词。然而,在现实中这2.2Lucene全文检索引擎个假设通常是不成立的。对于专业词汇、新产生2.2.1Lucene简介词汇、人名地名等专有名词,通用词典是无法满足Lucene是Apache软件基金会Jakarta项目组[收稿日期]2009—19—16[作者

6、简介]朱雪莲(1976一),女,江苏如皋人,新疆艺术学院基础部讲师。研究方向:信息检索。l1726卷第2期新疆教育学院学报2010年6月的一个子项目,是一个开放源代码的全文检索引Lucene的功能非常强大,主要包括两块:一擎工具包。它不是一个完整的全文检索引擎,而是文本内容经切词后索引入库;二是根据查询条是一个全文检索引擎的架构,提供了完整的查询件返回结果。引擎和索引引擎及部分文本分析引擎(英文与德文),文章所设计的中文字典分词模块就嵌入在3。主题词典的构建Lucene中。2.2.2Lucene系统功能介绍3.

7、1基本词库的构建Lucene源码中包括7个子包,其中最重要的文中的基本词库应包含数码产品搜索引擎中4个子包为:所有数码产品的品牌和型号等,需要对爬行器采集回来的页面进行页面解析。本系统通过对表1文中所用到的主要包及功能包名及功能AacheLucene全文检索引擎工具包的深入剖析,包名功能进行扩展及二次开发。首先网络机器人到网络上org.apachc.1ucene.a—语言分析器,主要用于切分词,下载与主题相关的类文本文件——可以转换为文nalysis对中文的支持主要是扩展此类本文件的文件,如网页文件、文本文件、

8、Word文org.apache.1ucene.索引管理,包括索引建立、删除档、PDF文档等,并将下载到的文件保存在本地的index等硬盘上;之后,文档处理器将网络机器人下载的文org.apache.1ucene.查询分析器,实现查询关键间queryParser的运算,如与、或、非等件转换为统一编码格式的文本文件,并构建主题词org.apache.1ucene.检索管理,根据查询条件,检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。