web资源质量的anp评测技术的研究

web资源质量的anp评测技术的研究

ID:33812179

大小:5.51 MB

页数:73页

时间:2019-03-01

web资源质量的anp评测技术的研究_第1页
web资源质量的anp评测技术的研究_第2页
web资源质量的anp评测技术的研究_第3页
web资源质量的anp评测技术的研究_第4页
web资源质量的anp评测技术的研究_第5页
资源描述:

《web资源质量的anp评测技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南交通大学硕士研究生学位论文第1页I.1研究背景与意义第1章绪论自九十年代初互联网(Internet)开始迅速发展至今,互联网已成为经济、社会、文化、教育以及娱乐等各个方面的重要组成部分,并正在成为我们工作和生活中不可或缺的一员。就我国而言,1997年10月,中国互联网络信息中心(CNNIC)发布了第一次中国互联网络发展状况统计报告【1J,报告指出,当时我国上网计算机数为29.9万台,上网用户数为62万,网站数量约l500个。2009年1月,CNNIC第23次报告【2J显示,我国网民数达到2.98亿,我国互联网普及率以22.6%

2、的比例首次超过21.9%的全球平均水平;宽带网民数达到2.7亿,国家CN域名数达1357.2万,三项指标继续稳居世界排名第一。报告还指出,我国网民规模已经接近3亿,较2007年增长41.9%,这是继2008年6月中国网民规模超过美国,一举成为全球第一之后,中国的互联网普及再次实现飞跃,赶上并超过了全球平均水平。从上面这些数据可以明显的看出,短短十年时间,互联网获得了飞速的发展,这只是中国互联网发展过程中几个方面的简单描述。从世界范围来看,互联网发展速度也异常迅速,与中国的发展情况类似。Internet提供了巨大的数据、信息和知识空

3、间。与分布在世界各地的WWW数据库服务器相连接为人们提供了取之不尽的数据源、信息源和知识源。如何从这些海量的数据、信息中发现、采掘和获取知识,这是知识工程研究面临的新课题。开展网上资源优选与评价研究的方法学研究对于指导信息服务人员优选和评价Internet上的信息资源具有重要指导意义。开展某一学科或专题的网上资源优选与评价对于指导专业人员方便、快捷、充分有效地获得所需信息具有重要作用,为专业人员充分有效地利用网上资源节约大量宝贵的时间,从而产生无法估量的社会和经济效益。随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统

4、,积累了大蹙的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的载体13J,西南交通大学硕士研究生学位论文第2页好的数据质量是各种数据分析如OLAP分析、数据挖掘等能够得到有意义结果的基本条件。人们常常抱怨所谓的“数据丰富,信息贫乏”,其中一个原因是缺乏有效的数据分析技术,而另一个重要原因则是数据质量不高,如数据残缺不全、数据不一致、数据重复等,导致数据不能有效地被利用。。Web资源具有以下三个特性pj:第一,Web资源具有高动态性,具体体现在:信息内容更新频繁,网站和

5、网页的结构与版面经常修改以满足使用者的各种需求,大量新的信息和网页被添加,而一些已存在的信息和网页又会从互联网上消失。要利用基于Web的信息辅助市场分析和决策制定,资源的稳定性是质量的一个重要方面。第二,Web信息的自主性,表现在没有一个全球性的质量管理机构,也没有统一的质量检查标准,从而无法像传统的出版物(如书籍、报纸、杂志等)和传统的数据资源(如数据库等)那样被仔细地评价、检查和校正。结果是Web信息中包含着许多错误的、不完整的、不一致的数据或者模糊的数据,甚至有不良的表达。例如:缺少单位或时间标记,正确的数据也会变得难以使用

6、。不同Web资源之间的数据集成也变得十分困难。第三,Web资源的多样性,Web资源的用户群体数据和类型急剧增加,各类用户群体在技术背景、信息的使用目的和使用方式上都有很大区别。例如:使用Web股票证券信息的用户对信息在可信度和时效性方面的质量要求很高。零售企业利用Web收集某一地区的人口统计信息,以便有针对性地制定营销方案,这些企业则对信息的可信度、完整性和集成度有很高的要求。数据是信息的载体,Web资源质量的好坏就是数据质量的好坏,数据质量提高策略多种多样,可以从不同的角度进行分类。数据质量提高策略可以分别从问题的发生时间或质量

7、问题解决依赖的知识两个角度来划分。从数据的整个生命周期来看,数据质量提高主要分两个角度来考虑:一类是从预防的角度,即在数据生命周期的任何一个阶段,都有严格的数据规划和约束来防止脏数据产生。另一类是事后诊断,即由于数据的演化或集成,会有脏数据逐渐涌现,须采取特定的算法检测出现的脏数据。从数据质量问题解决依赖的知识来看,数据质量提高策略分成两类:一类提高策略不依赖特定业务规则,是应用独立的,如数据拼写错误、数据分布异常、某些缺失值处理等,这类问题的解决不依赖于特定的业务规则,可以从数据本身中寻找特征;另一类解决方法与特定业务规则相关,

8、是应用依赖的,这些相关的领域知识是消除数据逻辑错误的必需条件。由于数据质量问题涉及方方面面,成功的数西南交通大学硕士研究生学位论文第3页据质量提高方案必然是综合应用上述各种策略。Web信息质量评测是基于Web的综合信息集成系统成功与否的关键,也是建

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。