面向web的文本信息挖掘研究

面向web的文本信息挖掘研究

ID:38107349

大小:261.60 KB

页数:4页

时间:2019-05-25

面向web的文本信息挖掘研究_第1页
面向web的文本信息挖掘研究_第2页
面向web的文本信息挖掘研究_第3页
面向web的文本信息挖掘研究_第4页
资源描述:

《面向web的文本信息挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据计算机系统应用2006年第9期面向Web的文本信息挖掘研究StudyOfTe埘MiningTechnOIOgyOrientedV\,eb张宏松刘建辉(辽宁工程技术大学研究生学院阜新123000)摘要:万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。Web挖掘可以快速有效地获取所需要的信息。基于Web的文本挖掘是数据挖掘的重要组成部分,探讨了Web文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。关键词:Web挖掘文本挖掘文本分类文本聚类1Web文本挖掘技术Web挖掘一门交叉性学

2、科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。Web挖掘是指从大量非结构化、异构的Web信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程¨1。当前研究的Web挖掘一般可分为三类:(1)Web内容挖掘。它是从Web文档内容或其描述的挖掘获取知识的过程。(2)Web结构挖掘。它是从WWW的组织结构和链接关系的挖掘获取知识。(3)Web访问信息挖掘。它是通过从Web的访问信息的挖掘获取知识。Web挖掘分类结构图如图1所示。Web挖掘Web内容挖掘基于Web的文本挖掘

3、Web访问信息挖掘一般访问模式追踪Web上的资源一般分为两类:文档和服务。目前Web上的资源发现主要集中于Web内容的挖掘。文本挖掘是指将数据挖掘技术应用在大量的文本集合上,发现其中隐含的知识的过程。大多数基于数据库的数据挖掘方法均可作用于文本挖掘,如数据归纳、分类、聚类、关联规则挖掘等。文本挖掘的结果既可以是对某个文本内容的概括,也可以是对整个文本集合的分类结果或聚类结果等怛1。Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据此模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自

4、述性和动态可变性。因而web上的数据具有一定的结构性。但因自述层次的存在,从而是一种非完全结构化的数据,半结构化是形成了Web文本挖掘的特色。2Web文本挖掘过程Web挖掘过程一般包括相关网页采集、文本个性化的l的预处理、文本模型表示、信息或文本特征性抽堕星望堡I取、文本分类(聚类)或结果集的数据挖掘等步骤,图1Web挖掘分类Web挖掘对象分为资源发现和信息获取。资源发现就是定位文本的位置,并自动生成文档的索引。50应用技术Apfdied1khnique以得到结果,从而极大程度的方便用户有效地浏览和获取信息旧1。Web挖掘过程如图2所示。2.1Web文本抽取及预处理Web页面是通过

5、HTML语言来定义的,Web页面通过多用途Intemet邮件MIME来标识不同类型的内容。该系统直接挂接在Intemet上,数据来源和万方数据2006年第9期计算机系统应用用户界面主要都通过Web实现。由一个Robot程序自动通过Web进行用户主题信息的文本的自动搜集。为了提高数据挖掘的效率和有效性,将高速缓存中的一些无用数据清除,如清除GIF和JPEG格式的图像文件、清除Web页面上中的脚本程序等。文本分类、聚类挖掘算法库卜_—K结果表示图2Web文本挖掘过程2.2特征选取和信息抽取对经过预处理的样本进行特征提取,利用浅层的自然语言处理技术可以实现高效率的自然语言处理:将非结构化

6、的信息改变为利于计算机存储、处理的结构化形式,采用独立于语种的方式将信息存储于信息库。用户就不必关心原始文本的语种,可以用所熟悉的语种进行抽取请求,并得到希望语种表示的信息抽取结果。同时信息抽取技术能够自动地从庞大的文本库中,动态地根据用户感兴趣的主题内容提取文本蕴含的信息。将Web页面上的数据按不同的数据类型、出现的时间顺序、不同的分割方式和实现方法收集并重组,便产生了用于不同挖掘任务的数据集b将到特征向量V中,V={(t1,w1),(坦,w2),(t3,w3),⋯}。利用特征选择方法计算其每一项的权值。在Web文档特征所采用的特征选择算法中,一般是构造一个评价函数,对特征集中的

7、每个特征进行独立的评估,这样每个特征都获得一个评估分即权值,然后对所有的特征按照其权值大小排序,选取预定数目的最佳特征作为结果的特征子集M1。所以,选取多少个最佳特征以及采用什么评价函数都要针对一个具体的问题通过实验来决定。特征选择主要用于排除那些被认为无关或关联性不大的特征即术语,依据文档集统计数据,这些特征处于无信息量的状态;并自动将那些低频的特征用正交方法合并成高频特征。词、词组和短语组成文档的基本元素,并且在不同内容的文档中,各词条出现频率有一定的规律性,不同

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。