大数据环境下的科技信息管理方法.pdf

大数据环境下的科技信息管理方法.pdf

ID:48079498

大小:1.02 MB

页数:2页

时间:2019-11-22

大数据环境下的科技信息管理方法.pdf_第1页
大数据环境下的科技信息管理方法.pdf_第2页
资源描述:

《大数据环境下的科技信息管理方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、随着国家科技计划改革的不断深入,国家修订了《中华人民共和国促进科技成果转化法》,并印发《实施(中华人民共和国促进科技成果转化法)若干规定》,今年7月党中央办公厅、国务院办公厅又印发了《关于进一步完善中央财政科研项目资金管理等政策的若干意见》,教育部、科技部又印发了《关于加强高等学校科技成果转移转化工作的若干意见》,鼓励高等学校在不增加人员编制的前提下建立从事科技成果转移转化工作的专业机构或者委托独立的科技成果转移转化服务机构开展科技成果转化,通过市场聘任、相关培训等多种途径建立成果转化技术经纪人队伍。国家、地

2、方政府通过相关政策不断鼓励高校及科研教师积极开展科技成果转化工作,进一步带动地方经济建设发展。重要举措包括高校可自主决策转化制度、制定科技人员兼职或离岗创业机制、执行成果转化报告制度、成果转化奖励的规则、相关领导决策的免责条款等内容。受政策利好的影响,涌现出一大批高新技术企业和金融投资公司,高校及科研院所海量的科技成果、专利技术是企业开展转化和投资的有力保障,所以如何有效、便利的查询并获得科技成果成为当前社会发展中不可缺少的重要环节。高校科研教师从基础研究、应用研究到成果的小试、中试,最后到产业化是一个漫长的

3、过程。改革开放以来教师们潜心研究、不断创新、不断取得突破,产生了大量的科技成果。以吉林大学为例,“十五”以来共申报专利7811项,其中发明专利申请5616项,获得授权专利4973项。面对大量的科技信息,政府、企业、中介机构和科技管理人员都需要一套健全的科技信息管理办法。2.1科技信息检索率低互联网时代科技信息的发布相对自由,出现了大量的不真实的科技信息。当我们利用某些知名网站搜索关键词时,会出现与科技成果毫不相关的内容,迫使重复输入多个关键词,这样既浪费时间又降低了工作效率。另外,由于搜索引擎程序设置为自动搜

4、索完成,有些网站为了提高点击率,将一些热门的科技关键词频繁使用在页面上,造成有效的科技成果信息被置后。2.2科技信息网站信息采集率低部分科技大市场或技术转移中心收录的科技成果信息有限。以某市科技大市场网站为例,在“成果展示”环境下的科技信息管理方法王勇吉林大学科学技术处长春130012模块中可以通过“成果名称”、“完成人”、“完成单位”、“登记号”栏目进行查询,当输入“吉林大学”关键字查询后,仅出现5条信息。科技成果信息采集率低也造成了信息检索的不便。2.3科技中介网站信息来源渠道混乱,真假难辨目前科技中介机

5、构像雨后春笋在全国各地不断涌现。以某科技智库网站为例,收录了吉林大学作为所有权单位的科技成果信息上百条,有些信息确为吉林大学所有,但信息的获取途径和来源并未从吉林大学官方途径获取,势必会对信息检索者造成误导,影响与所有权单位开展合作的进度,如有不慎也可能造成经济损失。因此如何辨别检索信息的真伪、如何保护成果所有人权益也是科技信息管理中需要考虑的因素。科技摘要生成方法主要使用了TextRank算法。(1)TextRank算法介绍TextRank算法基于PageRank,用于为文本生成关键字和摘要。算法介绍首先从

6、PageRank开始:PageRank最初被提出是用来计算互联网中的网页的重要性。整个互联网首先被看作一张有向图,网页就是其中的节点。如果A网页中包含其到B网页的链接,那么就会存在一条从A网页指向B网页的有向边。在整个有向图被构造成功后,就可以使用下面的公式:s《Kj=(1一d}{d女∑、?jiih,js({0)}∈/n“::S(Vi)是需要的网页i的重要性。d是阻尼系数,一般设置为0.85。ln(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合。『Out(Vj

7、)I是集合中元素的个数。PageRank需要使用上面的公式多次迭代才能得到结果。初始时,可以设置每个网页的重要性为1。上面公式等号左边计算的结果是迭代后网页i的PR值,等号右边用到的PR值全是迭代前的。TextRank算法:将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。通过PageRank算法计算得到的重要性最高的若干句子可以当作摘要。由于是有权图,下面的公式对于PageRank公式略作修改:I}’s(K)=(1⋯d)+dsE⋯一千掣n⋯一~一ws

8、(1j)’j∈百I㈠2一。』”I^∈£j“,t1’质量管理5152质量管理步骤1:首先对于文本进行分词处理,将每个句子作为一个单元进行分词处理。得到的分词结果存入一个列表中。列表成员的数目等于句子的数目。在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。对于分词方法可以选择{ieba分词或者snownlp中的分词方法。步骤2:使用BM25模型计算句子之间的相似度,来作为权值使用。得到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。