欢迎来到天天文库
浏览记录
ID:33978641
大小:1.61 MB
页数:50页
时间:2019-03-02
《基于形式概念分析的网页文本匹配研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、T.henewmatchtacticsputforwardareusedtocarryouttestinganexperimentattheendofthethesis,andmakeacomparisonwithBoole,thenewmatchmethodisverified.Thedatasetofexperimentincludes50ChineseWebpageandagroupofinquirywords.ExtractagroupconceptfromeachWebpageasthetrainingsettotrai
2、nbidirectionalassociativememorytostoretheWeb‘pageconceptlatticeformatchoperation.Andanalysisthepreciserateandrecallrateatthefrontofstudyingandatthebackofstudying.TheexperimentshowthatcomparingwithBoolemodel,thenewmatchtactics,attheaspectofprecisionrateandrecallrate,ha
3、vebetterperformance.Andthestudyingtacticsaccordingtothefeedbackoftheconsumerisabletoreinforcethesimilarityamongrelevantdocuments,thesimilarityofirrelevantdocumentcallbeweakened.Keywords:SearchEngine,informationretrieval,FormalConceptAnalysis,BidirectionalAssociativeMe
4、mory,WebPageMatch第V页西华大学硕士学位论文声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西华大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文成果是本人在西华大学读书期间在导师指导下取得的,论文成果归西华大学所有,特此声明。作者签名:叩≥虬2DDg年J’月2上日导师签名:jp它◇。栌王月巧日第53页西华大
5、学硕士学位论文第1章绪论现在互联网已经成为了人们生活中的主要信息来源之一。互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。如何让用户在如此浩瀚的信息海洋中准确有效地找到需要的信息便成了一个关键问题。在这种情况下,搜索引擎(SearchEngine)应运而生。作为一种检索工具,搜索引擎的出现,就好比为这本百科全书加上了目录和索引。不论我们想从互联网中了解新闻资讯,还是寻找学校和企业的网址、以及各种的图片
6、,或者是其他我们想知道的信息,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。Www的迅速发展和广泛应用为搜索引擎的发展提供了广阔的发展空间,搜索引擎迅速发展为Internet的一个新兴产业。在经过了十几年的发展后,搜索引擎已经取得了较大的成就,很多搜索引擎相继面世,如著名的Google,百度、天网等中英文搜索引擎。但是,网上信息量巨大并且信息结构和关系复杂,并呈飞速增长趋势,而且人类的参与使数据和信息中存在大量的不确定性。即使是使用搜索引擎,想在互联网上进行有效的查询成了一件越来越不容易的事情。很多搜索引擎返回的结果中
7、往往都包含了大量用户不感兴趣的网页,用户为了找到自己所信息,经常不是在这些网页中进行再次查找,就是不断改变查询词重新进行查找。造成这种困扰的重要原因就是这些搜索引擎在用户查询条件与网页的匹配方法上存在着许多问题。现有搜索引擎使用的检索技术是一种精确的匹配,而网页和用户查询本身是自然语言构成的文档,传统文本匹配部分没有从网页和用户查询构成的语言基础来解决问题,其文本表示方法无法表示出文本中词与词的联系和它们之间的结构关系,不厶匕rJl',l徊l哭好的表示自然语言文本的内容,导致信息检索质量不高,成为制约搜索引擎发展的瓶颈。也正是因此
8、,在信息检索领域中网页和查询的匹配是及其重要的研究。第l页西华大学硕士学位论文目前网页和查询的匹配方法具体的有:向量模型、布尔模型、潜在语义索引模型、概率模型等等,其中应用最广泛的是向量模型。但是如前所述,其查询效果并不是十分理想。本文借助于形式概
此文档下载收益归作者所有