欢迎来到天天文库
浏览记录
ID:35151046
大小:3.22 MB
页数:55页
时间:2019-03-20
《基于垂直搜索引擎的结构化信息处理技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江理工大学硕士学位论文浙江理工大学学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得浙江理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:刁酶哥签字日期:U73年弓月5日浙江理工大学硕士学位论文学位论文版权使用授权书本学位论文作者完全了解浙江理工太堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权浙江理工太
2、堂可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:懈肆签字日期:籼B年3月y日导师签名:o贸留刁壶l签字日期:加J;年弓月歹日浙江理工大学硕士学位论文摘要随着互联网的发展,搜索引擎在不断满足巨大的信息资源量的需求下,却无法兼顾到信息搜索的准确度和及时性,此时垂直搜索引擎为满足用户需求应运而生,本文通过对垂直搜索引擎进行了深入研究,并针对现有模型及其所存在的问题提出一种改进的垂直搜索引擎模型,依据该模块特点对结构化数据的去重和分类算法进行改进,通过两个改进算
3、法在改进的垂直搜索引擎模型中的实验应用,得出改进的垂直搜索引擎模型进一步提高了垂直搜索引擎的实时性和准确性。新模型设计的主要方案是对现有模型新增加一个数据二次处理的模块,该模块主要对抽取到的非结构化数据和半结构化数据向结构化数据转换。模块的主要研究内容是对网页信息的去重处理和分类处理。因此本文的主要研究内容和创新点分为以下三点:(1)在参考现有的电子商务领域广泛应用的垂直搜索引擎的基础上,提出一种改进的垂直搜索引擎应用模型,结合本文改进的去重算法和分类算法使用查全率和准确率两个指标评估该模型的实用性和可行性。(2)提出一种新的信息处理技术的网页去重算法,并以时间复杂度、空间复
4、杂度、查全率和准确率作为四个指标分析该算法在改进的垂直搜索引擎模型中的可行性和健壮性,以及对信息检索效率的提高。.(3)对现有的一种分类算法进行改进,进而使得适合于本文提出的垂直搜索引擎的结构化数据处理计算,该算法的结构包括词条数组和每个词条的文本链表。词条数组指将所有的训练文本分词,经过特征提取后的所有特征项组成的数组,存储在数组中的是特征项(词条)的ID号。词条数组中的每个词条(ti)有一个指针,指向含有ti的所有文本组成的链表。文本链表由两部分组成,文本的D和ti在文本中的权重。ti的文本链表生成以后,按照ti在文本中的权重递减排序,然后对其进行进一步的优化进而降低原有
5、算法的查找范围。关键词:搜索;索引:结构化;信息处理;算法浙江理工大学硕士学位论文TheResearchonStructuredInformationProcessingTechnologyBasedonVerticalSearchEnginesAbstraetWiththedevelopmentoftheInternet,searchenginescontinuetomeettheneedsofthehugeamountofinformationresources,butcan’ttakeintoaccountaccuracyandtimelinessoftheinform
6、ationsearch,SOverticalsearchenginecameintobeingtOmeetusers’needs.Basedontheverticalsearchenginein—depthstudy,thispaperproposedanimprovedclassificationandanewduplication-removealgorithmforverticalsearchenginemodeltoprovethatthenewmodelCanfurtherthereal—timeandaccuracyofverticalsearchenginest
7、osolvetheproblemsoftheexistingmodels.Thispaperusedthestrategyofaddingsecondaryadataprocessingmoduleintothecommonmodeltocompletetheinformationmanager,ThechieffunctionofnewmoduleisextractedtOunstructureddataandsemi.structureddatatostructureddataconversion.
此文档下载收益归作者所有