欢迎来到天天文库
浏览记录
ID:35102270
大小:5.40 MB
页数:49页
时间:2019-03-17
《面向组织内部搜索引擎的构建策略》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分料TP39110060--160323学科分类弓-SS520.誦.?*寿嗦乂净TIANJNIVERSTYOFTECHNOLOGYINUI硕±专业学位论文面向组织内部搜索引肇的构建策略ConstructionStratetowardsgyIntra-anOrgizationSearchEning一爾I馨側u?醒la—剧—…脚工程硕±I回JuBiiii抽计龍技术■■哇淹卞智繁IIW^^Wm帛麟胃刪f巧:t巾胃細獅M■-■,1.'-——天津理工大学研究生院年
2、月二Q■六^分类号:TP391520.4050密级:天津理工大学研究生学位论文面向组织内部搜索引擎的构建策略(申请硕士学位)学科专业:计算机技术研究方向:数据集成作者姓名:卞智繁指导教师:岳廷海李玉坤2016年3月ThesisSubmittedtoTianjinUniversityofTechnologyfortheMaster’sDegreeConstructionStrategytowardsIntra-OrganizationSearchEngineByZhi-fanBianSupervisorTing-haiYue,Yu-kunLiMarch,2016拇准
3、I牲弄巧本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取,得的研究成果,除了文中特别加|^标注和致谢么处外论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得义津理工大学或一其他教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。'9"I学化冷丈作者签名:期*月可签李;2^年1学隹4^^文胶权使巧投权书本学位论文作者完全了解义津理工大学有关保留、使用学位论文的规定。特授权天津理工大学可W将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印
4、或扫描等复制手段保存、汇编,供查阅和借阅。同意学校向国家有关部口或机构送交论文的复本和电子文件。(保密的学位论文在解密后适用本授权说明)学隹冷丈作者签名;斗為^导砰签名:签学可典!年3月CT曰签拿a期:分平3月^可摘要在大数据时代,互联网产生的庞大的数据信息让亿万用户时刻享受着最新资讯。无论学习或者工作,对于用户而言,及时掌握学校或者企业的最新消息都是非常必要的,但是在内部网中最新更新的信息很难被及时发现。并且网站中还存在着大量的可用资源,这些资源处于网站的深层中,用户往往需要跳转很多的链接才能找到。现有的企业内部搜索工具不能有效地解决以上问题
5、。本文通过对内部网站信息更新特点的研究,提出了解决方法,本文主要贡献如下:(1)提出了基于内部搜索引擎的信息更新方法。信息集成是计算内部网络中信息更新周期的基础,它决定了企业门户网站信息能否被全面检索。基于该问题,针对企业门户网站的特点,提出了企业信息集成方法。同时定义了企业web信息网络、有效访问、节点更新周期等相关概念。基于此,进一步提出了基于内部搜索引擎的信息更新方法。并比较了传统更新方法、基于更新周期的信息更新方法、自适应的更新方法的优点和不足。(2)提出了基于TF-IDF排序的优化方法。对传统的内部搜索工具的搜索结果进行对比,使用基于网页全文的搜索方法,结合返回结
6、果和搜索语句计算网页的权重,并使用NDCG评分策略对优化后的结果进行评价,最终呈现一个用户满意的查询结果。(3)对提出的方法进行了系统实现。基于以上方法,进行了系统实现,通过实际使用验证了所提方法的有效性。关键词:信息集成信息更新TF-IDF搜索排序AbstractIntheeraofbigdata,hundredsofmillionsofusersalwaysenjoythelatestnewsbythehugedatainformationproducedbytheInternet.Whetherinstudyorwork,itisnecessarytogetthela
7、testnewsofschoolsorenterprises.However,thelatestupdatedinformationintheintranetisdifficulttobeidentified.Inaddition,thewebsitealsohaslotsofavailableresources,whichareinthedeepwebsite,andtheuserscanusuallyfindtherequiredinformationthroughjumpingalotofnetworklin
此文档下载收益归作者所有