基于url%2b文本的网页主题分类模型研究

基于url%2b文本的网页主题分类模型研究

ID:20588774

大小:1.98 MB

页数:64页

时间:2018-10-13

基于url%2b文本的网页主题分类模型研究_第1页
基于url%2b文本的网页主题分类模型研究_第2页
基于url%2b文本的网页主题分类模型研究_第3页
基于url%2b文本的网页主题分类模型研究_第4页
基于url%2b文本的网页主题分类模型研究_第5页
资源描述:

《基于url%2b文本的网页主题分类模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉邮电科学研究院硕士学位论文基于URL+文本的网页主题分类模型研究ResearchofWebpageClassificationModelBasedonURLandContent专业:信号与信息处理研究方向:自然语言处理导师:廖闻剑研究生:程元堃学号:20150008二〇一八年一月武汉邮电科学研究院硕士学位论文摘要随着互联网的迅猛发展,网页的数量呈现爆炸式的增长,作为信息的载体,互联网上每时每刻都在产生大量主题各异的文本,且数据量巨大。如何从海量的、动态的信息资源中获取所需的信息,已日益成为互联网信息应用的关键问题。目前,通常利用数据挖掘中的分类技术对这些网页

2、进行组织归档,从而围绕用户有效地改善网页服务。网页分类研究主要以文本分类为基础,以单个网页为处理对象,整个过程存在大量的计算,对于大规模的流数据不具备适用性。而且考虑从用户行为角度出发,部分特定人群会有较为鲜明的HTTP访问偏好,因此,固定单一的分类流程不能体现用户的行为特点,且分类效率很低。针对传统的基于内容的网页分类方法存在的问题,本文提出了一种基于URL+文本的网页主题分类方法,结合不同场景的需求,设计并实现了两种分类模型。(1)基于词向量的网页分类模型:针对主题平稳的网页,预先定义军事、财经、娱乐、体育等八个主题,不同于传统分类算法中对于文本的向量表征,

3、词向量模型考虑词与词之间语义上的相似性,同时在网页正文抽取上结合网页结构特点进行改善,并且采用基于密度的聚类算法进一步优化。(2)基于URL+关键词的网页分类模型:针对主题鲜明的网页,利用URL本身包含价值信息以及网页正文中存在大量特定关键词重复出现的特点,提出了URL切分算法,同时改进TextRank算法进行关键词抽取,最终通过基于朴素贝叶斯的算法模型完成对未知网页的分类。(3)实验验证了两种分类模型在面向不同场景下分类的可行性和有效性,分别给出该分类模型对互联网不同主题类别网页的分类效果。关键词:网页分类向量表征词向量朴素贝叶斯I武汉邮电科学研究院硕士学位论

4、文AbstractWiththerapiddevelopmentofInternet,thenumberofpagesofexplosivegrowth,asthecarrierofinformation,theInternetallthetimeinthetextthatproducedagreatnumberofdifferentthemes,andthegreatamountofdata.Howtoobtainthenecessaryinformationfromthevastanddynamicinformationresourceshasbecomea

5、keyissueintheapplicationofInternetinformation.Atpresent,theclassificationtechnologyindataminingisusuallyusedtoorganizeandarchivethesepages,soastoeffectivelyimprovewebservicesaroundusers.Theresearchontheclassificationofwebsitepagesisbasedonthetextclassification,whichneedstoanalyzethec

6、ontentofwebsitepages.Ifonlythesinglewebpageistheprocessingobject,thecomputationvolumeislarger,whichisnotsuitableforprocessinglarge-scalestreamdata.Andconsideringfromtheperspectiveofuserbehavior,thepartofcertainpeoplewillhavemorebrilliantpreferencesofHTTPaccessing,therefore,fixedsingl

7、eclassificationprocesscan'treflecttheuser'sbehaviorcharacteristics,andhaslowefficiency.Inviewofthetraditionalproblemsofwebsitepageclassificationmethodbasedoncontent,thispaperproposesawebsitepagesubjectclassificationmethodbasedontheURL+Text,withthedemandofdifferentscenarios,thetwokind

8、sofclassific

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。