欢迎来到天天文库
浏览记录
ID:41690274
大小:111.27 KB
页数:7页
时间:2019-08-30
《基于名称识别文档备份方法研究和实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于名称识别的文档备份方法研究与实现摘要计算机技术的发展产生了数据备份技术。数据存储备份是保证系统安全运行的有效手段,因而采用高效率、低成本的备份技术显得越来越重要。为了提高文件备份效率,木文提出了一种基于名称识别的文档备份方法。该方法具有实用有效和简单灵活的优势,能够对待备份文档实现高效、有序的管理,有效克服了现有技术中的种种缺点而具高度产业利用价值。关键词数据备份技术;系统安全;名称识别;1引言近年来,随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,数据存储、数据备
2、份和灾难恢复日益成为引人关注的重要研究课题,尤其是数据备份占有重耍地位,它已经成为计算机存储领域里一个相对独立的分支。为保护不断增长的数据,防止数据丢失,数据备份技术作为数据保护的重要方式,也得到了长足的发展,更加受到人们的垂视。对一个完整的IT系统而言,备份工作是其中必不可少的组成部分。其意义不仅在于保证数据的一致性和完整性,防范意外事件的破坏,消除系统使用者和操作者的后顾之忧,而且还是历史数据保存归档的最佳方式。换言之,即便系统正常工作,没有任何数据丢失或破坏发生,备份工作仍然具有非常大的意义,它为我们进行历史数据查询、统计、分析,以及重要
3、信息归档保存提供了可能。随着服务器海量数据的不断增长,数据的体积变得越来越庞大,仅仅在木地硬盘存储数据已远远满足不了用户的需求,但是通过存储服务器来存储大量数据乂存在工作量大且容易岀错的问题,而通过备份工具来自动备份则缺乏很好的备份整理。本文提处出了一种基于名称识别的文档备份的方法,用于解决现有技术中不能很好对备份文档进行管理的问题。1/62文档备份管理常用技术与存在的问题由于文档众多,通常在整理文档的时候都需要按文档的类别、用途等对文档进行归类、命名,以方便管理。单是就文档的命名进行的命名实体识别就己经有很多人进行了相应的研究。命名实体的识别
4、是许多自然语言处理任务的基本要求,如信息抽取、机器翻译、文本摘要、主题发现与跟踪等。近年来,中文命名实体识别研究已经取得了较大的进展,而对文档的识别目前还未能获得较好的效果。目前,有关文档的名称识别的研究相对较少,主要使用隐马尔可夫模型(HMM)和基于启发式规则的机构名识别方法。基于启发式规则的机构名识别方法,虽然识别准确率较高,但由于机构名种类繁多,对各类机构名要总结出统一的识别规则,基本上是不可行的。基于隐马尔可夫模型的角色标注方法识别文档名,由于HMM是一种产生式(generative)模型,其方法也存在着下列缺陷:第一,为保证推导的正确
5、性,需要做出严格的独立性假设。事实上,大多数序列数据都不能被表示成一系列独立的元素,而且部分序列存在长距离依赖。第二,HMM完全依靠词性作为观察值,不能借助任何语义或是标志词信息,大大制约了系统识别的性能。鉴于以上所述现有技术的缺点,目前并没有很好的方法来对备份文档整理和管理,所以就需要一个有效的方案来解决这一问题。本文提出了一种基于名称识别的备份文档管理方法,用于解决现有技术中不能很好对备份文档进行管理的问题。3基于名称识别的文档备份方法3.1技术原理通过对待备份文档建立低层随机场模型和高层随机场模型,可以有效完成待备份文档的名称的识别,并根
6、据获得的待备份文档的名称将待备份文档存储到与名称与该待备份文档的名称对应的空间中,可以对待备份文档实现高效、有序的管理。3.2流程步骤图1显示为木文一种基于名称识别的文档备份方法的流程示意图。V步骤3步骤4步骤5步骤6步骤2结束步骤1,收集待备份文档的语料;步骤2,以字表或后缀为特征词典,制定文档的初步特征模版;步骤3,建立低层随机场模型:根据所述初步特征模板,以字为切分粒度,对所述语料进行标注形成第一标注语料;步骤4,建立高层随机场模型:制定复合特征模板并读取第一标注语料,根据所述复合特征模板,以词为切分粒度,对所述第一标注语料进行标注形成第
7、二标注语料;步骤5,通过CRF工具包对所述第二标注语料进行识别,获得待备份文档的名称;步骤6,在存储器上建立不同名称的空间,根据获得的待备份文档的名称将待备份文档存储到与名称与该待备份文档的名称对应的空间中;4具体实施过程步骤1,收集待备份文档的语料。通常,语料是在统计自然语言处理屮实际上不可能观测到大规模的语言实例,所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品形成语料。在为待备份文档命名之前,首先应人为的收集待备份文档的语料,例如,待备份文档中多次出现“买一些培训材料”,可以将“买一些培训材料”
8、确定为该待备份文档的语料。同时在本实施例屮,都将以该“买一些培训材料”作为语料为例,说明本方法的原理和实施过程。为每一个待备份文档都收集一个语料,多个
此文档下载收益归作者所有