欢迎来到天天文库
浏览记录
ID:8932891
大小:56.00 KB
页数:6页
时间:2018-04-12
《基于nutch的农业垂直搜索引擎研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于Nutch的农业垂直搜索引擎研究摘要:采用基于中文词典的正向最大匹配中文分词方法的JE分词改进Nutch中文分词,使其支持中文分词。最后,采用PAGERANK排序算法改进Nutch原有的基于Lucene的页面排序算法。目前,“专、精、深”的垂直搜索引擎、智能化语义化的搜索引擎成为人们研究的热点。在了解和分析Nutch工作原理的基础上对Nutch开源搜索引擎进行扩展和修改来研发基于Nutch的农业垂直搜索引擎。在基于Nutch的农业垂直搜索引擎研究的基础上结合项目背景需求,设计并实现了该系统管理平台。第一章,绪论部分。主要阐述了本论文
2、研究的目的、意义及本文要解决的问题、国内和国外的研究状况、核心研究内容以及本文章的组织结构。主要论述系统结构以及研发过程涉及到的关键技术,最后对其进行测试和分析。总结论文的主要工作和存在的缺陷之处,并对以后的研究工作进行了展望。本章阐述了本论文研究的目的及意义,论述了国内和国外的研究状况,给出论文核心研究内容及文章的组织结构。垂直搜索引擎是专门面向于一个特定行业、特定领域、特定人群而产生的工具,因此,垂直搜索引擎也称为专业搜索引擎、专题搜索引擎或是主题搜索引擎,是通用搜索引擎更细的划分和扩展(王文钧和李巍2010;李晓明等2007)。它
3、不仅具备“专、精、深”的特点,而且在这一领域具有典型的领域特色。具体而言,垂直搜索引擎就是把L网页结构的抽取方式(郭来德等2007)。垂直搜索引擎的网页信息过滤技术决定着该搜索引擎的专业性,网页信息过滤就是指通过分析网页内容及结构,保留与主题相关的网页,而丢弃与主题不相关的网页。目前,主要的网页信息过滤技术有基于布尔模型的网页信息过滤方法、基于VSM的网页信息过滤方法、基于潜在语义模型的网页信息过滤方法等(罗德一2007)。VSM是被上世纪60年代的Salton等人提出用于表达特征的模型,SMART(文本检索系统)是它的典型应用。中文分
4、词即中文切词,是指将汉字序列分割成代表一定含义的词。基于字符串匹配的机器中文分词算法、基于词频统计的中文分词算法以及基于知识理解的中文分词算法(李东和张湘辉2006)。基于字符串匹配的机器中文分词算法也称为词典中文分词算法、机械中文分词算法,它是依据一定的方法把所要分词的汉字串同词典来完成词条匹配,如果在该词典中能够发现该字符串,则表示切分出一个汉字串。如正向、逆向、最长、最小最短等匹配算法,通常情况都是将以上各种形式的分词方法相互组合使用。常用的几种相互组合的分词方法主要是:正向最大、逆向最大、双向等匹配算法以及最少切分算法;基于知识
5、理解的中文分词方法是力求使计算机能够具备人类分析句子的能力,从而能够识别出词。它主要由总控部分、句法语义子系统、分词子系统这三部分构成,通过总控部分来调解语义子系统、分词子系统进行歧义分词的判别。目前,索引技术主要分为四类,分别是线性索引、倒排索引、静态索引、动态索引。倒排索引是指按照属性的值来检索文件记录,它的索引表中的任意一项是由属性值和对应的记录的地址构成,因此它是用属性值来确认记录的位置,而不是用记录确认属性值;动态索引和静态索引在索引结构的生成上类似,唯一不同的是索引结构的改变不同,动态索引是在系统进行插入或删除记录时其索引结
6、构能够改变。Nutch的两个核心部分分别是:craeans聚类算法能够输入聚类数量k,然后依据聚类个数k划分n个数据对象来满足聚类需求,聚为一类的数据对象有较高的相似度高,不在同一个类中的数据对象相似度有比较大的差别。聚类相似度是选用每一类中数据对象的平均值作为该类的“中心”进行计算相似度(李慧等2004;HearstMA1997)。它具体的归类流程是首先从所有数据对象n中随意选取K个数据对象,作为K个类的首次聚类中心对象;其次,计算剩余数据对象与聚类中心对象的相似度(即距离),将最相似的归为一类;然后重新计算每个类中数据对象的平均值(
7、即该聚类中心对象);最后一直循环上述过程,当均方差(常用的标准测度函数)收敛于某一个值,停止循环。这样使k个聚类相互之间能够尽最大可能的分割,而和K个聚类自身能够尽最大可能的聚集(毛国君和段丽娟2007)。分类是一种重要的数据挖掘技术。分类是为了依据数据中对象的特征构造出分类器(即分类模型)。K最近邻分类算法也称KNN分类算法,它采用欧几里得计算距离的公式来计算两个样本间的间隔(即距离),如公式3-1所示。其中表示第i个样本对象的第k维向量特征,表示第j个训练对象的第k维向量特征,M表示向量特征的总维数,表示第i个和第j个对象间的相似度
8、。基于Nutch的农业垂直搜索引擎是借助开源搜索引擎Nutch开发的,因此本研中中文分词也是非常关键的一个技术。Analysis包内的NutchAnalyzer定义了Nutch分析器,NutchAnalyz
此文档下载收益归作者所有