硕士论文-基于nutch的网页自动分类与推荐的研究

硕士论文-基于nutch的网页自动分类与推荐的研究

ID:9050537

大小:1.52 MB

页数:73页

时间:2018-04-16

硕士论文-基于nutch的网页自动分类与推荐的研究_第1页
硕士论文-基于nutch的网页自动分类与推荐的研究_第2页
硕士论文-基于nutch的网页自动分类与推荐的研究_第3页
硕士论文-基于nutch的网页自动分类与推荐的研究_第4页
硕士论文-基于nutch的网页自动分类与推荐的研究_第5页
资源描述:

《硕士论文-基于nutch的网页自动分类与推荐的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:UDC:编号:河北工业大学硕士学位论文基于Nutch的网页自动分类与推荐的研究论文作者:张晨光学生类别:全日制工程硕士专业学位类别:领域名称:软件工程指导教师:马建红职称:教授DissertationSubmittedtoHeBeiUniversityofTechnologyforTheMasterofEngineeringDegreeofSoftwareEngineeringRESEARCHOFWEBPAGEAUTOMATICCLASSIFICATIONANDRECOMMENDATIONSYSTEMBASEDONNUTCHByZhangChenguan

2、gSupervisor:Prof.MAJianhongNovember2013原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:日期:关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校

3、有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:日期:导师签名:日期:摘要网页分类技术和推荐系统是目前解决信息负载的两种有效手段。网页分类技术目前主要是应用于门户网站,例如新浪、搜狐、58同城等等,推荐系统目前主要的应用场所是电商网站。二者对于信息的快速定位都具有各自的优势,

4、网页分类技术可以给用户一个对于信息更直观的导航;对于推荐系统这种手段而言,它要迅速的创建针对每一个用户的兴趣模型,自动为用户推荐出大概会想浏览的网页。基于二者上述的优点,网页分类和推荐系统在当下互联网快速发展的阶段都占据了重要的位置。本文提出了一种基于主题的网页自动分类的模型,并且将分类系统与推荐系统结合,开发出了一套便于用户快速发现自己喜好信息的系统。首先通过研究Nutch,抽取出了其中爬虫部分,设计出了针对专门领域的主题爬虫,同时加入了主题去噪,这一模型大大过滤了无关网页,采集的网页的有效性大大加强;针对网页的特殊结构,对网页锚文本、标题、正文分别赋予不同权重,改

5、进了KNN算法并且设计了相应的KNN分类器;系统通过机器学习,自动为网页赋标签,网页与网页之间通过标签确定二者相似度,然后通过建立用户兴趣模型,进行基于用户兴趣的网页推荐。系统的分类部分的实验验证了以主题爬虫和主题去噪为基础的基于主题的网页自动分类模型对于网页分类的准确度、分类效率方面有较大的提高;网页自动分类结果显示改进的分类算法设计出的分类器更加适合针对于网页的分类,相较于直接使用文本分类算法有显著的分类准确度提高;另外,网页分类系统和网页推荐系统的结合,对于用户定位自己感兴趣的网页提供了极大的方便,缩短了用户查找喜爱网页的时间。关键词:Nutch分类推荐主题网页

6、iABSTRACTTherearetwokindsofeffectivemethodstosolvetheinformationoverloadproblemthatiswebpageclassificationtechniquesandrecommendationsystem.Webpageclassificationtechnologyismainlyappliedintheportals,egsina,sohu,58,etc.Andrecommendationsystemismainlyappliedine-commercesites.Theybothhavea

7、dvantagesinpositioninginformationrapidly.Webpageclassificationtechnologycangiveusersmoreintuitivenavigationaboutinformation,Whilerecommendationsystemisbasedontheanalysisofusers'interests,setuptheusers’interestmodelrapidly,thenrecommendtousershe/shemightbeinterestin.Astheadvanta

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。