基于网页结构与链接关系的中文文本分类方法

基于网页结构与链接关系的中文文本分类方法

ID:30642480

大小:17.67 KB

页数:5页

时间:2019-01-02

基于网页结构与链接关系的中文文本分类方法_第1页
基于网页结构与链接关系的中文文本分类方法_第2页
基于网页结构与链接关系的中文文本分类方法_第3页
基于网页结构与链接关系的中文文本分类方法_第4页
基于网页结构与链接关系的中文文本分类方法_第5页
资源描述:

《基于网页结构与链接关系的中文文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于网页结构与链接关系的中文文本分类方法摘要:提出一种通过综合考虑网页的HTML结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同HTML标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类

2、别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的F1值。关键词:中文文本分类;HTML结构;链接关系;向量空间模型  中图分类号:TN911-34;TP391文献标识码:A  文章编号:1004-373X(XX)22-0054-0    ANovelChineseTextCalssificationMethodUsingWebpageTagsandHyperlinks  GUOXiao,JIANGZong-li  (CollegeofComputerScience,BEijingUniversityofTechnology,Beijing,Chin

3、a)  Abstract:Awebpageclassificationmethodusing课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果theHTMLtagsandhyperlinkstoimprovethevectorspacemodelrepresentationisintroduced.BecausethecontentindifferentHTMLtagshasdiff

4、erentsemanticmeaningandplaysdifferentroleinwebpageclassification,assigningweightstothecontentbytheimportancecanimprovetheclassificationaccuracy.Inaddition,tobettermodelthewebpageforclassification,combiningtheinformationprovidedbythewebpagethatarereferredinthebodyoftheoriginalwebpage,conside

5、ringtheyarerelevantandcanenhancetheweightsofrelevantwordsandreducetheweighsofirrelevantwords.TheexperimentalresultsdemonstratethattheproposedmethodeffectivelyimprovesF1measure.  Keywords:Chinesetextcalssification;HTMLtags;hyperlinks;vectorspacemodel  收稿日期:XX-06-1  课题份量和难易程度要恰当,博士生能在二年内作出结果,

6、硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果  随着计算机技术、通信技术等信息技术的高速发展,以及互联网基础设施建设与网络信息工具的大量推广应用,网络上的信息正在以几何级数进行着增长。如何使用户能够方便地从网络上海量的信息资源中获得其期望的部分,成为了当前信息领域重要的研究课题。  网络搜索引擎,是用来进行网络文本索引的一种重要手段,是针对网络中大量网页文本信息进行信息挖掘的有效手段。在网络搜索引擎的构建中,网页文本分类问题是一

7、个关键性的核心问题。高质量高效率的网页文本自动分类,对构建高效、实用的搜索引擎起着重要的作用。同时在解决主题搜索、个性化信息检索、搜索引擎的目录导航等相关问题时,网页文本分类技术也是十分重要的。因此研究如何提升网页文本分类性能,对研究新一代搜索引擎有着重要意义。  1网页文本分类技术简析  网页文本分类是指按照预先定义的主题类别,根据海量网页文档的内容,确定相应网页的类别。  目前,网页文本分类采用的技术基础是基于内容的纯文本分类。基本方法是,在抓取到的网页集合中,对每篇网页文本进行纯文本的内容抽取,得

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。