欢迎来到天天文库
浏览记录
ID:31361568
大小:104.00 KB
页数:4页
时间:2019-01-09
《农业科技知识倒排索引的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、农业科技知识倒排索引的设计与实现 摘要:信息技术的飞速发展大大提高了我国农业信息化水平,专业农业科技知识检索成为农民生产过程中解决生产问题的重要手段,该文通过对倒排索引技术研究,对农业科技知识建立倒排索引,并在倒排索引基础上设计农业科技知识检索系统,为农民提供精准农业科技知识检索服务。 关键词:倒排索引;搜索引擎;数据库 中图分类号:TP311文献标识码:A文章编号:1009-3044(2015)27-0176-02 Abstract:Therapiddevelopmentofinformationtechnologyhasgreat
2、lyincreasedtheagriculturalinformatizationlevelinChina,specializedintheproductionofagriculturalscienceandtechnologyknowledgeretrievalbecomefarmerstheimportantmeanstosolvetheproblemofproduction,basedonthetechnicalresearchinvertedindexstructure,theknowledgeofagriculturalscienc
3、eandtechnologytoestablishinvertedindex,andbasedoninvertedindexdesignofagriculturalscienceandtechnologyknowledgeretrievalsystem,precisionagriculturescienceandtechnologyknowledgeretrievalserviceforthefarmers. Keywords:Invertedindex;Searchengine;Thedatabase4 信息技术的飞速发展大大提高了我国
4、农业信息化水平,在传统农业生产过程中,农民在生产过程中遇到的各种问题主要通过咨询相关领域农业专家进行解决,但我国农业人口众多而农业专家数量有限,因此有时咨询专家也存在一定困难。随着信息技术的快速发展,我国农业信息化水平有了很大提高,越来越多的农民能够使用互联网进行信息查询,本文通过对倒排索引技术的研究,设计了农业知识倒排索引,并在倒排索引基础上开发了农业科技知识检索系统,为农民提供专业农业科技知识检索服务。 1倒排索引技术 倒排索引也称为反向索引、反向档案,是一种索引方法,源于实际应用中需要根据属性的值来查找记录,用来存储在全文搜索下某个
5、单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表,是其他结构无法抗衡的高效索引结构。倒排索引主要有个两部分组成:“词典”和“倒排记录表”。 本文是以大学生创新项目“农业知识检索系统的设计与实现”为背景,在建立了农业知识库的基础上,为实现对农业知识的全文检索而设计的。为实现农业知识全文检索的功能,必须对知识库中的农业科技知识建立倒排索引,然后通过检索页面对倒排索引进行检索,返回给用户高相关度的检索结果。 2农业知识倒排索引设计 2.1收集需要建立索
6、引的文档 经过先前的准备已经依据“农业信息分类标准草案”,把农业信息按类录入农业知识库。录入途径主要为:41.通过农业网络爬虫从相关农业网站抓取信息,然后分类导入知识库。2.人工录入已掌握的大量农业信息。目前已录入农业科技知识文档350多万篇,为倒排索引的构建奠定了数据支持。 2.2将每篇文档词条化 词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条。在这个过程中,可能会同时去掉一些特殊字符,如标点符号等。在这里我们用中文分词器对已录入的农业知识文档进行词条化。通过对IKAnalyzer、ictclas、庖丁解
7、牛等中文分词器的比较,最终采用IKAnalyzer2012_u6作为本系统的分词器,该分词器不但有160万/秒的高性能分词能力,而且还具备智能分词和最细粒度分词两种可选模式,方便制定开发。倒排索引主要包括四个域,分别为标题、正文、表名和记录ID,标题和正文是需要检索的域,因此在建立倒排索引时需要对这两个域分词并存储。下面以一篇农业知识文档中的一部分为例: 输入:小麦叶锈病主要侵害小麦叶片,产生疱疹状病斑。 输出:小麦叶锈病主要侵害小麦叶片产生疱疹状病斑 2.3对所有农业知识文档按照其中的词项来建立倒排索引4 我们假定构成农业知识库的每
8、一篇文档,都有一个唯一的标识符即编号(docID)。在索引构建过程中,我们给每篇新出现的文档赋一个连续的整数编号。对每篇文档建立索引时的输入就是一个归一化的词条表,
此文档下载收益归作者所有