网络信息挖掘利用与现代信息服务

网络信息挖掘利用与现代信息服务

ID:39397219

大小:27.50 KB

页数:5页

时间:2019-07-02

网络信息挖掘利用与现代信息服务_第1页
网络信息挖掘利用与现代信息服务_第2页
网络信息挖掘利用与现代信息服务_第3页
网络信息挖掘利用与现代信息服务_第4页
网络信息挖掘利用与现代信息服务_第5页
资源描述:

《网络信息挖掘利用与现代信息服务》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络信息挖掘利用与现代信息服务[摘要]本文分析了传统网络信息查询方式的局限性,介绍了网络信息挖掘技术的现状、发展趋势,XML语言的技术特点,并结合实际情况论述了现代信息服务中对网络资源利用的几种趋势。[关键词]网络信息挖掘XML整合专业化个性化NetworkInformationDiscoveryandModernInformationServiceTangDiWangBo[Abstract]thearticleanalyzesthelocalizationoftraditionalsearchmethodaboutnetworkinformation,introducest

2、hestatusofnetworkinformationdiscoveryandXML,anddiscussesthetrendofexploitationofnetworkresourceinmoderninformationservice.[Keywords]Networkinformationdiscovery;XML;Combination;Specialization;Individuation1引言网络,是一个巨大的信息资源载体,包括了非常丰富的内容。网络技术和海量存储技术的发展,导致网络信息以几何级数迅速增长。除了数量巨大,网络信息还包括以下特点:类型多样;变化

3、频繁;结构复杂;质量参差不齐。这些特点导致巨大的信息资源无法被充分利用。长期以来,为了提高网络资源的利用律,从成千上万、杂乱无章的信息中提取出自己所需要的知识,人们开始有目的的对网络信息进行挖掘。2HTML及搜索引擎的局限性Internet上的大部分资源,是由HTML(HyperTextMarkupLanguage超文本标记语言)所构成的网页。在IE中,点击“查看”,选择“源文件”,会弹出一个记事本,记事本上的代码就是该网页的HTML源文件。HTML是网页制作的标准语言,无论是什么样的网页制作工具,都提供直接以HTML的方式来制作网页的功能,即使使用dreamweaver等图

4、形界面方式的工具来制作网页,后台生成的都是HTML文件。HTML是一种标记语言,通过标记(Tag),将文字、图片等信息组合在一起,并按一定的格式显示出来。HTML的用途是通过构造网页框架以显示数据。所以,它仅仅对数据进行了显示,并不能正确描述数据的属性,从而对知识的发现带来了一定困难。搜索引擎曾经是互联网用户查找信息的主要方式。然而时至今日,搜索引擎早已不能满足人们的需要。深究其局限性,除了各种客观原因(死链接过多,重复信息过多,搜索出的网页信息已变动等),其实质在于搜索引擎对信息的检索仅仅采用机械的关键字符匹配,所以有时甚至无法处理在用户看来是非常简单的常识问题,更不能处理

5、各种领域的专业知识。由于搜索引擎缺乏知识处理能力和理解能力,绝大部分的互联网用户感到应当出现更有效的、准确的知识发现技术。3网络信息挖掘技术现状与发展趋势网络信息挖掘是指从大型网络中挖掘出数据信息之间潜在的规律和知识。在大型网络中,存在着海量的数据。数据是对客观事物的描述,是字符、数字、文本的集合。人们对数据进行分析,找出数据之间的关系,就形成了信息。从网络信息中寻找知识,就是从海量的数据信息中理解其模式。面对浩如烟海的网络信息,怎样才能省时省力又找到有用的知识,人们不断探索新的技术。3.1网络信息采集系统目前,国内许多信息技术公司都推出了自己的网络信息采集产品。在搜索引擎已

6、不再能满足人们需要的今天,越来越多的单位和个人纷纷购买这类软件,以解决网络信息的获取问题。这些软件系统虽然名称略有差别,但功能却大同小异。基本上都是采用:实时信息采集工具+数据库(SQLServer或其它)+Web发布。用户在采集工具中添加目标站点和网页,自行设置监控时间和挖掘深度,采集数据统一存入本地数据库中,Web发布模块提供数据信息的统一发布、导航和检索功能。网络信息采集系统具有以下优势:采集工具可以避免相同信息的重复抓取,过滤广告、版权等无用信息,采集到的内容比搜索引擎搜索出的内容要精确。系统提供分类训练工具,用户根据自己的分类需求、数据特点设定分类结构、特征样本,分

7、类训练工具通过学习,能够实现自动分类。对于发布的信息,用户可以查阅本地数据库中经过过滤的内容,也可以直接调看原始网页。采集到的信息被存储在本地数据库中,避免了原始网站上的信息更迭给用户查询带来的困难。不足之处在于:网络信息采集系统最初的设计只是针对大型门户网站,这些网站结构雷同,信息比较容易获取,但是要对各种结构复杂的网站信息进行挖掘,需要对软件本身进行修改或二次开发。分类训练工具进行自动分类之前,需要学习各种特征样本,其学习的实质是从特征样本中抽取出关键词汇,由于当前许多不同学科之间存在较大的相关性,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。