基于知识图谱的国际网络搜索引擎研究现状与前沿分析

基于知识图谱的国际网络搜索引擎研究现状与前沿分析

ID:20735545

大小:66.55 KB

页数:15页

时间:2018-10-15

基于知识图谱的国际网络搜索引擎研究现状与前沿分析_第1页
基于知识图谱的国际网络搜索引擎研究现状与前沿分析_第2页
基于知识图谱的国际网络搜索引擎研究现状与前沿分析_第3页
基于知识图谱的国际网络搜索引擎研究现状与前沿分析_第4页
基于知识图谱的国际网络搜索引擎研究现状与前沿分析_第5页
资源描述:

《基于知识图谱的国际网络搜索引擎研究现状与前沿分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于知识图谱的国际网络搜索引擎研宄现状与前沿分析[摘要]运用知识图谱方法对国际网络搜索引擎领域1999〜2010年的相关文献进行多角度的定量定性分析,描绘该领域近年来的研宄现状及热点。结果表明:目前该领域的文献量稳步增长,高校是核心的研宄力量。同时识别核心作者群,并发现目前的研宄主要集中于搜索引擎的基本理论研宄、检索效率研究、用户行为研究、语义网研究、医学引擎研究等。[关键词]网络搜索引擎知识图谱研宄现状研究前沿[分类号]G3501引言因特网信息爆炸性增长在给使用者带来便利的同时,也带来了麻烦。在浩如烟海的信息海洋中快速准确地寻找所需信息犹如大海捞针般困难,网

2、络搜索引擎的出现缓解了这一矛盾。搜索引擎是一种用于帮助因特网用户在互联网上查询信息的搜索工具,它以一定的策略在因特网中发现、搜集信息,并对搜集的信息进行加工整理和组织存贮,为用户提供检索服务,从而起到信息导航的作用。1994年创建的Lycos被认为是第一个现代意义上的搜索引擎。网络搜索引擎发展至今虽只有十余年的历史,却在商界、学术界掀起了巨大波澜。著名因特网网站排名公司Alexa提供的数据显示,搜索引擎公司谷歌于2009年1月5日首次在Alexa日流量排名中占据第一,成为世界头号网站。comScore在2009年9月发布的全球10大因特网资产也显示谷歌排名第二

3、,排在第九、第十位的也均是搜索引擎公司,分别为百度和Lycos。学术界对于网络搜索引擎的基础理论研宄、比较研宄、技术研宄、质量性能研究等均有大量报道,但鲜有涉足现状及前沿分析,即使涉足一般也以定性研宄为主。为了解该领域近年来的研究现状及热点,笔者拟用知识图谱方法对国际网络搜索引擎领域的相关文献进行以定量分析为主、定性分析为辅的研宄,希冀得出一些有益的结论,为该领域的研宄提供借鉴。2数据来源、理论基础和研究思路2.1数据来源本文使用的数据均来源于美国科学信息研究所的WoS数据库平台中的SCI—Expanded数据库。以“WebSearchEngine”或“Web

4、SearchEngines”为主题词进行检索,在相关题录信息下载过程中,文献类型选为“Article”,语种为“English”,入库年份为“1999-2010",下载日期为2010年04月30日,共检索到1268篇文献和36804条引文题录数据。2.2理论基础科学知识图谱是显示知识发展进程与结构关系的一种图形,是近年来国际上兴起的一种科学计量学研宄方法。知识图谱以引文分析、共现分析、词频分析等文献计量方法为基础,综合了计算机科学、图形学、信息可视化、数据挖掘、数学等学科理论和方法,可以以图像图形的形式形象地展现科学领域的发展历程、研究现状及热点前沿,并揭示科

5、学知识之间的联系与知识的发展规律,为科学研宄提供有价值的参考。德雷赛尔大学陈超美博士开发的Citespaeell可视化软件为研宄提供了极大便利,是知识图谱方面一款非常优秀的软件。对于一个研究领域的表示,陈超美认为,可以用“研究前沿”和“知识基础”两者之间的时变映射来表示。研宄前沿代表了一个领域的思想状况,研究前沿的引文和共被引轨迹则构成了相应的知识基础,Citespaeell使用的光谱聚类算法可以对共现和共被引网络进行自动聚类及标引,采用的Kleinberg突变检测算法可以用于检测一个学科内研宄兴趣的突然增长。本文拟用“关键词聚类”和“突变词检测”算法来确定某

6、研究领域的研究热点和研究前沿。2.3研宄思路本文首先采用文献计量方法对相关文献的数量、著者、主要研宄机构进行分析以揭示研究现状,然后绘制这1268篇文献的高频关键词的共现聚类图谱、高被引文献的共被引网络知识图谱,从而描绘出该领域的研宄热点及知识基础。使用到的软件主要有书目共现分析系统、Excel、Citespaeell可视化软件等。3研宄现状描述3.1文献信息量统计发表文献的数量在一定程度上代表了某个领域的研宄水平与发展趋势。图1所示的是1999〜2010年12年间的文献量,其中2010年的数据只统计到4月份。从图中可以看出,文献量除2003、2005年略有下

7、降外,其他年份均呈稳步增长之势。3.2论文著者统计分析3.2.1作者总体状况统计表明这1268篇文献来自于1045位著者,具体数据如表1所示:这与经典的描述科学生产率的洛特卡定律并不符合。洛特卡定律描述的是写一篇文章的作者大约占作者总数的60%,而写n篇作者的人数约为写一篇作者人数的l/n2。但从表中发现,写一篇文献的作者人数所占的比例高达89.5%,远高于60%。3.2.2核心作者状况对于作者发文量和被引频次的统计分析可以识别某研宄领域的高产作者及学术影响力。本文选取发文量5篇以上的作者作为高产作者,被引频次超过125次的作者作为高被引作者,分别如表2、表3

8、所示:Thelwall、Jansen、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。