大数据背景下海洋档案数据挖掘研究

大数据背景下海洋档案数据挖掘研究

ID:20152156

大小:72.51 KB

页数:4页

时间:2018-10-08

大数据背景下海洋档案数据挖掘研究_第1页
大数据背景下海洋档案数据挖掘研究_第2页
大数据背景下海洋档案数据挖掘研究_第3页
大数据背景下海洋档案数据挖掘研究_第4页
资源描述:

《大数据背景下海洋档案数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据背景下海洋档案数据挖掘研究吴晓文孙杰杨帆家海洋局东海信息中心(国家海洋局东海档案馆)摘要:海洋档案大数据挖掘技术成用于档案知识管理是新时期我国海洋档案事业发展的重要方向。本文阐述了海洋档案数据挖掘的概念,分析苏当前面临的问题与挑战,剖析丫海洋档案大数据挖掘技术的表现形式,以满足海洋档案多元化信息服务需求,为探索档案管理模式由传统服务利用向智能化服务模式的创新和转型提供有益借鉴。关键词:人数据技术;海洋档案;数据挖掘;基金:2016年国家海洋局东海分局青年科技基金“人数据技术与海洋档案数据挖掘应用研宄”(项目编号:201615)的研宄成果一、引言伴随着信息技术的飞

2、速发展,各类电子设备的大量普及,信息化发展迎来了“大数据”时代。海洋档案是“蓝色记忆”的守护者、传承者,是海洋事业发展的重要部分。大数据时代,每个人都是知识的生产者、传播者、利用者,同吋也是档案的形成者、利用者。档案不像图书、文献,所承载的数据呈分散形式存在,不会自动形成知识资源,如何将海量档案数据转变成信息或效用更大的知识网络,这就需要海洋档案工作者和科研工作者共同的劳动介入。国家海洋局东海档案馆为我国在三个海区设立的海洋档案馆之一,R前正在寻求与大数据开发公司合作,开发适合海洋档案的大数据挖掘工具,增强从大数据中分析萃取信息的能力,进而提高档案为海洋管理部门决策、

3、业务部门科研水平的服务能力。二、海洋档案数据挖掘海洋档案是各项海洋工作活动的记泶和凭证,包含国家机构、社会组织和个人在从事海洋管理、科研调查、资源开发、公益服务、对外合作与交流以及海洋部门党政工作等活动中,直接形成的具有保存价值的原始记录,对服务国家海洋事业发展具有不可替代的作用,是我国档案界中宝贵的“蓝色财富”。大数据时代应建立“大档案”概念,海洋档案数据挖掘(MarineArchivesDataMining),就是从大量的档案文献、专业基础数据、网络收集资料、档案编研资料等不完全的、冇噪声的、模糊的、随机的海洋档案数据中获取冇效的、新颖的、潜在有用的、最终可理解模

4、式的非平凡过程。从广义上说,数据挖掘又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从存放在数据库、数据仓库或其他信息库的大量数据中“挖掘”知识的过程,能够有效地解决数据和知识之间的鸿沟,实现数据与知识的转变、交换。大数据吋代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能,对大量数据进行分析处理和智能化挖掘,从管理角度来看,要达到最优的结果,不仅数据要全面、可靠、有价值,而且需要对数据进行深度挖掘。三、海洋档案数据挖掘面临的挑战数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。海洋档案数据来源广泛

5、,业务种类繁多,数据结构多样。探索人数据挖掘技术应用于海洋档案,而临诸多挑战。(一)数据化与数字化的辨析与技术转换。数据化是随着大数据技术的发展逐渐被人们从数字化概念中分离并提炼出来的。数字化档案在利用检索上存在一定的局限性,需要用户明确知道所查找内容的出处,并II以数字图像呈现的档案只有依靠用户阅读转变为有用的信息和知识。数据化档案则借助OCR光学字符识别软件等数据识别技术来识别数据,使档案信息能够被计算机处理和分析。我国海洋档案数字化逑设经过多年的发展己经取得丰硕的成果,各级海洋档案馆(室)已基本实现了档案目录信息的数字化甚至档案信息全文数字化,例如东海数字档案馆

6、经过5年多的建设运行,已基木实现电子文件和档案信息检索利用。但人多数的海洋档案馆(室)在档案数据化程度上仍停留在初步探索阶段,如何对纸质和数字图像等非数据化的海洋档案,通过数据识别技术转变为数据化的档案是大数据技术应用于海洋档案数据挖掘亟须解决的难点之一。(二)海洋档案中的电子文件在规范程度上参差不齐。数据的输入形式不统一,涉及语言标准化、数据结构规范化问题对数据深度挖掘产生丫阻碍。海洋档案通常具有信息资源数据量大、专业交叉、融合难度大等特点,多数海洋政企部门现有的海洋档案业务系统与综合业务平台、其他应用系统之间无法进行互联,形成了信息孤岛。同时越来越多的专业信息系统

7、、业务平台和专业结构数据库无法纳入档案管理范畴或无法提供档案服务。“数据海量、信息缺乏”是众多政企部门在数据大集中之后面临的尴尬问题。0前,大多数事务型数据库仅实现丫数据录入、查询和统计等较低层次的功能,无法发现数据屮存在的有用信息,更无法进一步通过数据分析发现更高的价值。这些因素都会影响到大数据挖掘的深度和广度。(三)档案数据化方面的行业技术规范仍处于初步探索阶段。国家针对档案数字化出台了《电子文件归档与管理规范》《纸质档案数字化技术规范》和《数字档案馆建设指南》等标准规范,但由于海洋学科和业务范围覆盖广泛、纵横交叉,为档案数据化标准规范的制定堉加

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。