欢迎来到天天文库
浏览记录
ID:33757109
大小:2.98 MB
页数:79页
时间:2019-02-28
《主题网站的自动发现与判定方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:TP391论文编号:102870912-S057学科分类号:120100硕士学位论文主题网站的自动发现与判定方法研究研究生姓名郭倩学科、专业管理科学与工程研究方向管理信息系统指导老师马静教授南京航空航天大学研究生院经济与管理学院二○一二年三月NanjingUniversityofAeronauticsandAstronauticsTheGraduateSchoolCollegeofEconomicsandManagementResearchontheMethodofAuto-discoveryandVerificationofTop
2、ic-WebsitesAThesisinManagementScienceandEngineeringbyGuoQianAdvisedbyProfessorMaJingSubmittedinPartialFulfillmentoftheRequirementsfortheDegreeofMasterofManagementMarch,20122承诺书本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所涉及的研究工作做
3、出贡献的其他个人和集体,均已在文中以明确方式标明。本人授权南京航空航天大学可以有权保留送交论文的复印件,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文。(保密的学位论文在解密后适用本承诺书)作者签名:日期:南京航空航天大学硕士学位论文摘要众所周知,互联网现已成为目前最大的信息资源平台,它已经成为信息工作人员搜集公开信息的一个重要途径。不同领域的信息工作者所关注的主题不同,他们需要每日固定跟踪一些主题网站来获取有效信息,主题网站就是指主题比较明确集中的网站。但是网络世界变化快,
4、网络中每天都可能有新的网站建立起来,或者信息工作者以前没有发现的网站,如果他们不去发现这些与自身研究主题相关的新网站的话,可能会造成错失重要情报的后果。因此信息工作者不能局限于固定跟踪的几个网站,他们需要不断发现新主题网站信息源并对其进行跟踪。如何才能发现新的主题网站,如果仅靠人工发现的话,由于互联网的海量信息,人工搜索的工作量大且效率不高。因此我们提出交给计算机来自动帮助我们发现这些相关主题网站。本文在研究一系列相关理论包括关键词提取理论、信息采集理论以及相似度计算理论的基础上,改进了关键词提取算法,提出了网站主题描述模型以及网站相似度计算,
5、并且设计了一套计算机自动发现主题网站的解决方案:从用户已经关注的网站称为“样本网站”出发,从样本网站中提取出主题信息,设计主题描述模型来量化描述这些主题信息,利用主题描述模型的关键词组合进行网页信息的搜索,从搜索到大量网页中提取主题相关的网站,并且与样本网站进行相似度计算,将相似度高的网站判定为主题相关网站,推荐给用户选择是否作为关注网站,从而实现主题网站的自动发现以及判定。最后本文针对这套方案的关键部分进行了实验:关键词提取实验证明改进的TF-IDF算法在关键词提取方面优于传统算法;主题网站发现效果实验和相似度计算实验表明本方案在主题网站发现
6、上是有较为合理的效果的。关键词:主题描述模型,相似度计算,网站发现i主题网站的自动发现与判定方法研究ABSTRACTAsweallknow,theInternethasbecomethelargestinformationresourceplatform.ithasbecomeanimportantwaytogatherpublicinformation.Informationworkersindifferentareasconcerntodifferentthemes,theyneedtotracksomeofthewebsitetoobta
7、inusefulinformationeveryday.Tobicsitemeansthemeofthesiteismoreclearlyandfocused.Buttheonlineworldchangesquickly,theremaybeanewwebsitesetupeveryday,ortheydidnotnoticethesites.Iftheydonotfindthesenewsitewhicharerelatedtotheirownresearchtopics,itmayleadtomissimportantinformatio
8、ninconsequences.Therefore,informationworkerscannotbelimitedtotrackafixedora
此文档下载收益归作者所有