欢迎来到天天文库
浏览记录
ID:33598032
大小:361.88 KB
页数:5页
时间:2019-02-27
《开放存取期刊网站结构和页面分类研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第簇2oo9年7月期JOUR情NALO报FINT杂ELLI志GENCEVJ0u】.l2y820N0O9.7·信息技术·开放存取期刊网站结构和页面分类研究*ResearchonWebsiteStructureandPageCategoryofOpenAccessJournals钱建立刘军兰张薇(空军工程大学电讯工程学院西安710077)(陕西省科技信息研究所西安710054)摘要通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合
2、变化,提出了基于页面分类的0A主题蜘蛛设计方案。关键词开放存取网站结构页面分类主题蜘蛛中图分类号G352.1文献标识码1A文章编号1002—1965[2009}07~0137一o4目前关于网站页面分类研究主要集中于自动通用1前言分类方法的研究【1-6],而对专用领域网站结构和页面目前开放存取(OpenAccess,简称为OA)的主要来分类的研究成果则不多见,文献[7]对Blog的页面进源包括:OA源期刊网站、OA机构仓储(Institutional行了分类,对Blog社区进行规律性研究和发现等,针Repositories,简称IR)、学科或专业仓储(Subject/Di
3、sci.对Blog网页的特点与规律,提出一种根据网页结构和plineArchive)、单位仓储(OrganizationArchive)和作者关键字计算相似度的方法识别Blog网页。文献[8]针个人自存档。OA发展的高级阶段就是OA集成仓储对如何把面向桌面计算机的网页直接转换为面向手机的出现。OA集成仓储的关键技术是用来爬取OA文等移动设备显示的网页的应用,提出了页面划分、自动献的OA主题蜘蛛(也简称为OA蜘蛛)。目前的主题定位等技术。本文通过对20种典型开放存取相关期蜘蛛都是建立在相关度基础上的,这样就造成一个事刊网站的结构和页面进行抽象、统计、分析、归纳,进而实:主
4、题蜘蛛工作目标的不确定性,也就是说蜘蛛工作总结出文献类网站的结构和页面分类,为OA蜘蛛工之前不知道要取哪些页面,只是根据蜘蛛搜索算法作奠定基础。和相关度算法去工作,收集到的页面就是最后的结果。2期刊网站样刊选择但是并不是所有的主题蜘蛛对未来的结果浑然不知,如OA主题蜘蛛在工作之前就知道未来结果的范围,遴选了20家期刊网站进行分析,这些期刊大多是因为OA蜘蛛的目标是收集所有论文中的OA论文,而OA期刊,考虑到OA将来的发展,也选取了少量目前所有论文的数据源及集合元素是可数的、确定的。不是OA期刊的网站。表1给出了选择的20种期刊OA主题蜘蛛的衡量指标主要是爬全率、效率、对
5、的主要属性。源网站造成的负担,更注重系统性和时效性。系统性期刊遴选的原则包括:a.兼顾国内外期刊。b.兼表现在两个方面:a.要包括尽可能多的OA数据库;b.顾不同的语种。C.兼顾不同的收录数据库,如El、SCI要收集每个OA数据库中所有的OA文献。所谓时效收录期刊、中文核心期刊、中国科技核心期刊、普通期性就是当没挂OA数据库有新的OA文献时要能及时刊。d.兼顾不同的出版集团,选择了Springer、Elsevier、发现。签于OA主题蜘蛛目标的特殊性,通用主题蜘Nature、Taylor&Francis、1EEE的期刊。e.兼顾不同学蛛的工作机制就不能应用于OA主题蜘蛛
6、。需要对OA科。f.兼顾不同的网站结构,有的期刊网站只有一种源网站结构和页面进行分类,进而设计出针对性工作期刊,有的网站包括了多个期刊。g.兼顾期刊网站开机制。发单位。国内期刊网站目前大多采用三才、马格泰克、收稿日期:2009—04一l6修回日期:2009—05—05基金项目:陕西省科学技术研究发展计划项目“科技论文开放获取搜索5l擎研究”(编号:2007K04—11j。作者简介:钱建立,男,1964年生,博士,副教授,研究方向为OA搜索引擎和数据挖掘;刘军兰,女,讲师;张薇,女,研究员。·138·情报杂志第28卷勤云等公司提供的系统,少数网站为杂志社自行开发;刊网站的
7、页面结构分析,发现期刊论文网站页面可以国外则采用ScholarOne公司的系统,一些大的出版集分为索引页面、期目录页面、论文元数据页面和全文页团则是自己开发。面等4类形式。期刊选择无倾向性。在随机选择期刊后,不能再4.1.1索引页面。行剔除。定义1:索引页面就是包括期刊出版年度和期数表1选取期刊站点的属性的页面。说明:索引页面不一定仅仅包括年度和期数相关内容。索引页面又分为年度索引和期索引页面。定义2:年度(卷)索引页面就是包括期刊出版年度(卷)的页面。定义3:期索引页面就是包括某个出版年度内所有出版期数列表的索引页面。关于年度索引和期数
此文档下载收益归作者所有