快速的中文网页分类方法实现

快速的中文网页分类方法实现

ID:41011146

大小:241.64 KB

页数:3页

时间:2019-08-13

快速的中文网页分类方法实现_第1页
快速的中文网页分类方法实现_第2页
快速的中文网页分类方法实现_第3页
资源描述:

《快速的中文网页分类方法实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据山西电子技术2008年第4期应用实践快速的中文网页分类方法实现*朱志宁黄青松(昆明理工大学理学院,云南昆明650051)摘要:详细介绍了一种快速的中文网页分类系统的设计与实现,通过解析出网页的主要内容、网页的Title、网页的Meta标签内容和指向该网页的父网页上的锚文本,并根据这些信息用VSM法将网页分类。实验结果表明,本文的方法可以使中文网页分类性能速度得到大的提高且能保持较高的准确率。关键词:页面解析;文本分类;网页分类;VSM分类器中图分类号:TP391.1文献标识码:AO引言Internet的迅速发展给我们带来了直观、方便的信息发布和传输方式。因而基于www的

2、网上信息的收集、发布和相关的信息处理日益成为人们关注的焦点。然而,面对着网络上信息数量和种类的高速增长,人们在运用网络获取信息时遇到了最大的问题之一就是由于网上信息的多样性和多变性而导致了一方面信息过度膨胀而另一方面用户却找不到所需要的信息。如何在Internet这么一个动态变化的环境下对各种信息进行收集、分析及评价并提供高效的检索服务成为目前计算机研究领域的一个热点。同普通文本相比,网页具有以下特点:1)Web上的网页窟间通过超链接互相关联,超链接所蕴含的内容推荐与内容相关关系给网页分类带来很多启发信息;2)网页通常包含大量噪音,如广告、导航条、推荐栏、作者信息等与主题内容无

3、关的信息;3)中文网页需要分词处理。正是上面这些原因使得网页分类比普通文本分类要复杂得多。1中文网页分类系统设计本文提出了一种基于主题的信息采集分类资源管理平台。它包含了网页采集、文档集向量提取和网页分类,为下一步解决基于DOM的信息抽取提供了路径。1.1总体框架该资源管理平台主要面向某个企业或者行业提供信息资源的增值服务。在这个平台中,资源对象仅包括传统意义上的文本,对于图片、音视频资源等资源对象,我们也提供了方法将其采集下来,为将来的应用提供信息。资源管理平台为管理者提供一个采集、训练、分类和检验等四个主要阶段的流程化信息资源管理框架。在此框架下可以通过针对不同的网站,来修

4、改某些属性来改进分类的效果。如修改网页中不同部分的权重(tide、meta、提取出的主要文本等),人为的调节词(即文档集的关键字)的权重等。另外还为将来找到相应的专业词库,提供了去除噪音词的功能。1.2预处理在网页分类前,先要进行预处理工作,网页预处理主要要进行HTML解析、中文分词、停用词删除、词条选择。际磊两司网提取网页中用于网页分类的有效信息文档集通过训练得到相应的文档集向量根据用户所指定的主题。决定网页的取舍圈1总体框架1.2.1HTML解析HTML解析是网页分类的第一步,它解析出来的内容的正确性对于后面的分类精确度将有很大的指导作用。本系统中将利用以下文本用于分类。1

5、)锚文本。锚文本是网页中用于指示所链接的网页的内容的提示,有图片和文字两种形式,对于图片的形式,由于涉及到图片内容的识别,在这里我们暂时不做处理。锚文本的获取在网页进行采集的同时进行。数据表中以网页的url地址作为主键,将其锚文本记录在表中,由于同一网页可能会被多个网页链接到,但其锚文本内容都是相同的,这里仅记录一个。2)网页中有一些信息是我们分类不需要的,如javs.script和sytle等,经实验,如果将这些信息带入到后面的提取程序中,删P纽蚶包解析出来的信息和获取的主文本的准确度将大大下降。因此,必须将它们从网页获取相关文本前先去除掉。3)Title文本。Title文本

6、是网页作者为本网页所取得名称,它包含在Title标签中。nde标签可能是该网页中最"It-基金项目:云南省条件平台项目(No.2006PT06);昆明理工大学校青(2007.60)收稿日期:2008—05—06第一作者朱志宁男37岁硕士助教圈区因而姗盟一

7、霎

8、一蝴一I鑫网的一一掳k榷一鬲载定一一殴嘧Ⅷ一匪匮万方数据8山西电子技术2008年重要的标签,一般把它放在description与keyword前。Title标签在搜索引擎的搜索中占有非常重要的地位,里面的内容往往是该网页较为精确的说明。4)meta标签。meta标签一个很重要的功能就是设置关键字,来帮助网站的网页被各大搜索

9、引擎登录,提高网站的访问量。在这个功能中,最重要的就是对Keywords和de.scription的设置。keywords用来告诉搜索引擎你网页的关键字是什么。description用来告诉搜索引擎你的网站主要内容。因此,网页的制作者往往都设置好关键字,来提高页面的搜索点击率。我们可以利用meta标签中的有关文本内容来帮助我们完成网页分类。5)主文本。上面这些文本信息被提取出去以后,网页中剩余的文本信息还留存在各种HTML标签中。在HTML源文件中,主文本还可能并不连续出现,通过对网页的观察

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。