欢迎来到天天文库
浏览记录
ID:33726432
大小:161.53 KB
页数:8页
时间:2019-02-28
《链接分析中地数据采集技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、链接分析中的数据采集技术研究杨波中国科学院文献情报中心,北京100190摘要:本研究从网络计量学中链接分析研究的需求出发,设计了多种数据采集策略、链接分类和数据过滤规则,并开发了用于获取原生链接数据和搜索引擎数据的软件系统LinkDiscoverer,希望有助于解决网络信息计量分析研究中的数据可靠性问题。本文系统全面地介绍了本研究所采用的主要数据采集规则和技术策略,最后通过实证研究验证了该系统在链接分析上的良好表现。关键词:链接分析数据采集网络爬虫网络计量ResearchontheTechniquesofDataCollectio
2、ninLinkAnalysisYangBoNationalScienceLibrary,ChineseAcademyofSciences,Beijing,100190Abstract:ThisstudyexploitsseveralpossiblewaystomeettheneedsoflinkanalysisinWebometrics,anddesignsvariousofdatacollectionstrategiesandrulesoflinkclassificationanddatafilteringforthesyste
3、mnamedLinkDiscoverertocollectrawlinkdatawiththeintentionofmakinganycontributiontoimproveonthedatarealibilityinWebometrics.ThedatacollectionrulesandtechniquesappliedinLinkDiscovereraredescribedindetailinthepaper.Finally,theperformanceofLinkDiscovereronlinkanalysisispro
4、vedduringthecasebasedstudy.Keywords:linkanalysis;datacollection;Webcrawler;Webometric1.前言近10年来,网络链接分析(WebLinkAnalysis)的理论、技术和方法在数学、计算机、社会科学等多个领域得到了快速发展。正因为网络链接分析在犯罪调查、防止金融诈骗、Web挖掘(如网络搜索服务和企业竞争情报分析)和通讯等方面存在潜在的、巨大的学术[1]价值和经济价值,网络链接分析引起了越来越多国内外学者的关注。此外,在数据挖掘(DataMining)领
5、域出现了新的研究分支——链接挖掘(LinkMining)。链接挖掘的主要任务有基于链接的分类和聚类、链接实体间关系的判断与预测、链接强度的预测以及不确定因[2]素的识别(如信息提取、去重和引证分析中的对象识别等)。[3][4]在图书情报领域,从“Webometrics”的提出,到对网络文献链接规律、期刊网络影[5][6][7][8]响力、学术科研机构之间链接规律等方面的探索性研究,都是围绕链接分析展开的。可以说,在超文本技术广泛应用的今天或者未来,无论是发展传统的信息计量学,还是另辟蹊径,采用独特的理论和方法来研究网络上实体与实体
6、之间的链接规律,网络链接是最为宝贵的资源之一。所以,出于信息计量学研究的需要,综合利用多个学科的知识、从多个角度对于链接挖掘的研究有着广泛而又深远的意义。然而,对于网络计量学的链接分析研究而言,难点之一就是如何才能有效地获取序化的、可靠的用于链接分析的原始数据。由于网络链接1[9]实现技术的多样性、链接技术应用的广泛性、链接动机的复杂性、链接质量分布的不均衡性和链接创建的方便性等诸多因素的存在,给链接分析研究的数据获取带来很大挑战。链接[10]分析结论的可信性很大程度上受到原始数据可靠性的影响和制约,不同的数据采集策略和数据采集工
7、具可能会导致完全不同甚至相反的结论,因此对于数据采集策略和数据采集工具的研究是链接分析研究的基础和保证。数据采集策略的多样性和对不同样本集合的适用性必须依赖于数据采集工具的灵活性,所以数据采集工具的优化是链接分析研究的第一步。从链接分析的理论需要出发,作者认为对一个链接分析用数据采集工具性能的判断包含以下几个方面的内容:(1)是否能够有效地获取样本集合内指向核心资源的链接;(2)数据的组织方式拟合分类方法是否很好地拟合于数据分析工具;(3)是否可以根据不同的研究需要制定不同的数据采集策略,如对数据采集深度和范围的选择。满足以上条件
8、的数据采集工具获取才被认为是功能完备的,从其获取的数据才是可靠的,而现有的数据采集工具,无论是商业软件还是共享免费软件都难以达到以上的标准。为了进一步消除由数据采集工具引起的链接结构和计量分析结论的误差,本研究中我们将开发一个链接分析专用的数据采集
此文档下载收益归作者所有