欢迎来到天天文库
浏览记录
ID:61742836
大小:39.50 KB
页数:9页
时间:2021-03-16
《期刊选择学术论文内容的分类.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、期刊选择学术论文内容的分类1引言在数据采集技术和数据存储设备得到快速发展的大环境下,多种针对数据分析、挖掘的应用应运而生。在学术研究过程中同样需要数据分析的应用,例如期刊论文的分类研究。然而,在论文文献分类中目前还未有普遍使用的统一标准。由于期刊数量和投稿人数量逐年增加,论文的增长趋势也不容小觑[1]。长期以来由于审稿周期较长、稿件本身的时效性使得一些投稿人未能遵守底线,一稿多投和一文多刊的现象层出不穷[2]。早期在有关期刊投稿指南的相关研究中,研究者往往仅给投稿者提出一些主观的期刊投稿建议,例如“了解认识期刊”、“了解同行评审和稿件要求”等[3]
2、,这些建议缺乏可执行性,在具体操作时仍不能给予投稿者切实有效的帮助。随着,信息共享意识的觉醒以及信息系统的普及应用,相关学者提出了构建期刊投稿网络系统的设想,希望通过多家期刊共同参与,建设一个科学、透明、共享的投稿平台[2]。对一篇具体的论文而言,文献篇幅一般较长,故其具有包含大量信息的特殊性。为了有效提取文本的关键信息,在进行文本分类时常选择对能够容纳一篇论文最为核心信息的题录信息进行处理[4],从而更精准地概括文献的内外部特征、进一步挖掘出期刊收录偏好特征。综上,本文希望以图书馆、情报学学科SSCI核心期刊为例,获取该学科期刊下十年内收录文献的
3、题录信息,挖掘收录偏好特征相近的期刊进行聚类后构建层次体系结构,然后通过机器学习和深度学习的方法对该层次分类模型进行验证,选择最优的特征组合和分类算法,根据以上分析结果考虑将内容相似度较高的期刊进行合并,从而获得最佳的期刊投稿推荐意见。2近期相关研究9学海无涯我国对期刊类目划分的研究呈现两大明显的操作路径:一是基于期刊内容的类目划分[5]。例如,沈立力[6]基于期刊搜索的关键词将民国期刊分成诗歌、时政等共五个类目。二是针对期刊等级进行类目划分[7],这种思路的类目划分已经有十分成熟的理论且被学者广泛应用于各类期刊等级划分中,最典型的理论即为布拉德福
4、定律。例如,兰超英、张凌云[8]以我国旅游学术期刊为例通过期刊评价的各种指标找出了期刊合集中对应的分级层次。以上提到的期刊类目划分思路大都基于人工统计和手动分类,近些年,一些基于机器和算法的方法才开始不断涌现[9,10,11]。主流的文本聚类算法包括基于层次的聚类方法和基于划分的聚类方法。除此之外,还有基于网格[12,13]、密度[14,15]、模型[16]的聚类方法。CURE[17]、ROCK[18]、CHAMELEON[19]是层次聚类中最具代表性的三种算法。层次聚类算法一般适用于小型数据集[20],张雅杰[21]、言迎[22]等曾利用层次聚类
5、的方法对连州市和益阳市的土地进行划分。最经典的划分聚类算法当属1967年提出的k-均值(k-means)聚类算法[23],后来大多数划分聚类算法都是基于该方法进行改进。例如k-modes算法[24,25]、一致性保留k-means算法[26]。划分聚类的方法应用得较为广泛:李洋[27]将k-mean应用于对入侵检测库和安全级别的构建当中。邢留伟[28]通过k-means算法进行客户数据建模达到了对客户进行更精准细分的目的。众多学者将机器学习算法和深度学习算法应用于文本分类研究,例如在专业期刊自动分类[29]、门户网站文本情感分析[30]和新闻文档的
6、主题分类[31]中都曾得到良好的实验效果。齐玉东[32]将军事文本文档进行分类实验,分别利用SVM[33],CNN[34],RNN[35]等机器学习和深度学习的算法得到了较高的准确率,召回率和F1值。汪少敏[36]等对比了传统机器学习分类算法和深度学习分类算法在文本分类中的效果,在进行测试的数据集上体现出了深度学习算法的优越性。对以上期刊类目划分研究的总结可以窥探出期刊类目划分逐渐由人工向机器过渡。但在人工类目划分标准下,主观因素难免影响划分结果。针对某一研究领域的期刊一般只有该专业学者才具有类目划分的知识储备,很难形成对多种学科领域具有全方位指导
7、价值的方法体系。这时,机器划分的优势得以体现。且很多学者已经利用机器学习、深度学习算法在多种文本实验中得到良好的分类结果;一般情况下随着文本量和语料丰富程度的增加,深度学习常常表现出比机器学习更具优势。在此背景下,本文提出利用机器方法和深度学习方法为期刊论文投稿的多分类问题提供解决方案,同时也为高水平期刊收录内容的差别化探索提供思路。3实验设计和优化9学海无涯3.1研究框架。为了构建某一学科下的期刊分类体系,本文设计了总体研究框架如图1所示。本文以图书馆、情报学(LibraryandInformationScience,LIS)学科英文期刊为研究对
8、象,选择题名(TIss)、关键词(KWss)、附加关键词(DEss)与摘要(ABss)四个字段的信息作为实验数据,经过数据
此文档下载收益归作者所有