硕士论文-中文人名搜索引擎的设计与实现

硕士论文-中文人名搜索引擎的设计与实现

ID:34643324

大小:1.24 MB

页数:49页

时间:2019-03-08

硕士论文-中文人名搜索引擎的设计与实现_第1页
硕士论文-中文人名搜索引擎的设计与实现_第2页
硕士论文-中文人名搜索引擎的设计与实现_第3页
硕士论文-中文人名搜索引擎的设计与实现_第4页
硕士论文-中文人名搜索引擎的设计与实现_第5页
资源描述:

《硕士论文-中文人名搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、兰州大学硕士学位论文中文人名搜索引擎的设计与实现姓名:孙辉申请学位级别:硕士专业:计算机软件与理论指导教师:陈晓云20050601摘要随着时代的发展,Web信息量正在以指数级的速度增长,传统搜索引擎的检索方式,造成搜索的结果集为海量冗余信息,难以找到特定行业用户所需要的精简而准确的信息。这样,面向主题的搜索引擎便孕育而生,它也被认为是新一代搜索引擎的发展方向。本文提出了一种采用了多维数据方体作为中文人名搜索引擎的数据存储方式,通过对职业、所在地、出生年月的信息提取,然后运用补偿式信息提取的主题文本分类算法和语句一词条聚类算法,对相似文档归类,最终实现了以检索人名为主题的

2、中文人名搜索引擎原型系统。通过对原型系统的试验分析,我们可以将不同的人物按照职业、所在地、出生年月以层次化形式展示,以便用户能够从不同角度快速的查询目标人物。关键字:搜索引擎信息提取、文本分类、文本聚类TFIDF语句一词条矩阵多维数据方体lIAbstractWiththedevelopmentofthesociety,thecapacityofwebinformationincreasesexponentially,SOthatthespecialuserscannotfindthewantedsimplifyandaccurateinformationbecauset

3、hetraditionalsearchmethodswillproducemuchredundancyinformation.InthiScasetheverticalsearchenginewasgivenbirthto,itisalsoconsideredthedirectionofthenewgenerationsearchengine.Thispaperproposedakindofmulti—dimensionaltotakedatastoragewayofChinesepersonalnamesearchengine,Throughcarriedoninfo

4、rmationextractiontotheoccupation,thelocus,thebirthyearsandthenweusedthesubjecttextclassificationalgorithmbasedoncompensatoryinformationextractionandthesentence—wordsdusteralgorithmtogathersthesimilardocuments.Finally,werealizedChinesepersonalnamesearchengineprototypesystemthathastakenret

5、rievethepersonalnameastomakethesubject.Throughcarriedontheexperimentalanalysistotheprototypesystem,wemightthedifferentcharacteraccordingtotheoccupation,thelocus,thebirthyearsbythe1evelformdemonstration.Thus,theuserwasablefasttoinquiregoalcharacterfromthedifferentangle.Keyword:Searchengin

6、e;DocumentClassification:DocumentClustering:InformationExtraction;TFIDF;Sentence-wordsmatrix:MultipledatacubeIll原创性声明本人郑重声明;本人所呈交的学位论文,怒在导师的指蹲下独立进行研究所取得的成果。学位论文中凡引用他人已经发表戏未发表的成果、数据、观点等,鸷已弱确注羁塞楚。滁文孛已经{妻骥雩

7、建静蠹褰努,不包含强隽萁毯个人躐集体已经发袭或撰写过的科研成果。对本文的研究成果做出重要灏献的个人和集体,均已在文中以明确方式标明。本声爨的法律责经由本人承撵。论文作者

8、签名:勉!埠日期:丝!:三:罗口关于学位论文使用授权的声明零人在寻瑟携芬下象完或熬论文及攘关戆敬务终鑫,妇识产权努属兰髑大学。本人完全了解兰州大学有关保存、使用学能论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阕;本人授投兰髑大学霹班貉零学链论文懿全部凌部分内容编入骞关数器痒进行梭索,胃以采用任何复制手段保存和汇编本学位论文。本人离校后发袭、使用学位论文或与该论文直接相关的学术论文或成果时,第一爝名单位仍然为兰州大学。僚辩论文在解襄器应遵守藏蕊定。论文作者签名;塞丝导师签名:第一章绪论1.1问题

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。