基于机器学习的web文本自动分类

基于机器学习的web文本自动分类

ID:25592679

大小:309.00 KB

页数:38页

时间:2018-11-21

基于机器学习的web文本自动分类_第1页
基于机器学习的web文本自动分类_第2页
基于机器学习的web文本自动分类_第3页
基于机器学习的web文本自动分类_第4页
基于机器学习的web文本自动分类_第5页
资源描述:

《基于机器学习的web文本自动分类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一章引言WEB已经发展成为拥有巨大信息资源的分布式信息空间,包含有巨量的各种类型的WEB文档。人们迫切需要能从中快速有效地检索特定信息的工具,以提高WEB信息检索的效率。当前,已推出了商品化的WEB信息检索工具,这些工具可以分为搜索引擎和目录检索系统两大类。但是它们检索的精度不高,检索得到的文档数目相当庞大,对用户无用的大量文档混杂其间,用户不得不花费大量的时间进行人工浏览筛选;或者会漏掉许多用户关心的信息。基于机器学习的WEB文本自动分类Agent是提高WEB空间信息检索精度的有效途径,通过对样本文本

2、的学习后,它能对WEB空间定制式地检索出符合用户要求的检索结果,从而可以大大降低人工二次浏览筛选的工作量。1.1WEB信息检索的发展现状计算机与网络技术的发展使信息的发布与共享不再受到与时间与空间的限制。WorldWideWeb(简称Web)为人们提供了极其丰富的信息资源。面对信息的海洋,用户试图通过浏览WEB来发现自己所需的信息已经变得非常困难。与方便快捷的信息发布技术相比,信息检索技术相对滞后,已成为信息技术发展与应用的“瓶颈”。WEB信息资源具有以下特点[1]:1、大规模Nature上发表的最新数据

3、[Lawrence99]表明,在1999年2月,WEB上约有8亿个页面,数据量达到15TB。2、分布性上述海量信息散布于大约280万台WEB服务器上,这些服务器分布于全球各地,通过TCP/IP、HTTP等协议相互连接。3、动态性WEB上的信息时刻处于变化之中,旧的页面不断被更新(包括内容改变、位置移动等)和删除、新的页面不断出现。4、多领域WEB信息资源的内容丰富,覆盖了科研、商业、政府等几乎所有领域,包含新闻、报告、论文等多种类型。5、半结构化和无结构化WEB页面通常仅有有限的结构,或者根本就没有结构,

4、即使具有一些结构,也是着重于格式,而非内容。此外,页面的内容是人类所使用的自然语言,计算机很难处理其语义。6、非规范化WEB的开放性和用户的随意性使得信息资源的质量无法得到保证,其中包含了低劣的内容以及拼写错误,自定义用词等噪声。WEB信息的大规模、分布性、动态性等特点给信息检索带来了新的挑战,需要在传统技术的基础上开展针对WEB特点的研究工作。目前,WEB信息检索已经成为WEB技术研究、开发的热点和重点之一。在提交WWW’2004会议的218篇论文中,关于信息检索方面的论文占了20%,远远多于其它方面。

5、本文的工作源于上述背景,对WEB中文信息资源这个具有重要理论意义和广阔应用前景的课题进行研究和探索。WEB信息检索是指从大量的WEB文档的集合C中找到与给定的查询请求q相关的适当数目的文档子集S。WEB信息检索过程对应于一个映射α:(C,q)→S。WEB信息检索系统是用户层和WEB信息层之间的中间层。目前,用于WEB信息检索的商品化产品主要是搜索引擎和目录检索系统两种类型。搜索引擎是人们检索WEB信息最常用的手段。搜索引擎的基本设计思想是:使用Robot(网络蜘蛛)来遍历WEB,将WEB上分布的信息下载到

6、本地文档库;然后对文档全文自动建立索引;对于用户提出的检索请求,搜索引擎通过检索索引找出匹配的文档(或链接)并返回给用户。在查询时,用户不需要知道搜索索引中索引的具体组织形式。推出的搜索引擎已经发展到数百个,最著名的搜索引擎有NorthernLight、AltaVista、InfoSeek等。其中NorthernLight和AltaVista索引的WEB页面都已经超过1亿个。目录检索系统与搜索引擎的工作方式不同,它并不使用Robot下载WEB文档,而是由人工收集或者由WEB站点的作者主动提交;一般也不对文

7、档全文自动建立索引,而是由人工对WEB站点和文档进行评价,分类并给出简要描述。经过上述处理的WEB信息资源按照主题类别组织成树状目录,从根节点逐层向下列出从一般到特殊的分类及各级子类,而叶节点则包含指向WEB信息资源的链接。用户可以通过浏览目录中的分类来查询WEB信息。采用目录方式工作的检索产品有Yahoo、OpenDirectory、Snap等。例如,目前Yahoo包含有指向50万个站点的链接,分布在2.5万个分类中。需要指出的是,目录检索系统提供的是对分类以及WEB信息描述的索引,与搜索引擎提供对文档

8、内容的全文索引是不同的。由于搜索引擎具有庞大的全文索引数据库,因此适合于检索难以查找的信息或者一些比较模糊的主题;目录检索系统有助于逐步缩小主题或者查找某个主题的常见信息。现在,将这两种检索系统结合起来的混合系统也开始出现,例如LookSmart等。现在一些著名的搜索引擎和目录系统也呈现出逐渐融合的趋势,例如,Yahoo在目录检索服务的基础上,已经开始使用Inktom的WEB全文索引数据库来提供与搜索引擎类似的WEB信息全文检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。