基于词典微观数据结构和工作流的词典计算机辅助编纂-

基于词典微观数据结构和工作流的词典计算机辅助编纂-

ID:36672062

大小:37.50 KB

页数:14页

时间:2019-05-13

基于词典微观数据结构和工作流的词典计算机辅助编纂-_第1页
基于词典微观数据结构和工作流的词典计算机辅助编纂-_第2页
基于词典微观数据结构和工作流的词典计算机辅助编纂-_第3页
基于词典微观数据结构和工作流的词典计算机辅助编纂-_第4页
基于词典微观数据结构和工作流的词典计算机辅助编纂-_第5页
资源描述:

《基于词典微观数据结构和工作流的词典计算机辅助编纂-》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于词典微观数据结构和工作流的词典计算机辅助编纂*利用计算机技术进行词典编纂的目的可以简单概括为[1]基于词典微观数据结构和工作流的词典计算机辅助编纂*利用计算机技术进行词典编纂的目的可以简单概括为[1]:降低工作量,提高工作效率,保证词典出版的时效性。计算机辅助词典编纂系统设计的基本思路是对词典微观数据结构加以组织构建具有内在关联的数据表集合,然后建立操作这些表的用户接口,使得用户可以在专业的界面上进行词典编纂工作。显然从长期词典编纂和词典复用的角度来看,这样的词典编纂专业系统提高了工作效率,降低了工作量

2、也保证了词典出版的时效性的,但我们也可以看到这里计算机的主要作用只是以其超越于人的记忆能力充当大型存储仓库而已,整个词典编纂系统也只是将传统的词典编纂方式搬到计算机上而已,是一种浅层次的计算机辅助编纂。深层次的计算机辅助编纂,覆盖词典编纂全过程,包括语料采集、语料处理、语料查询、词目编制、义项例证的收集筛选和词典出版等;深层次的计算机辅助编纂是对上述传统编纂过程的改革,由计算机全程控制工作流程,工作任务的转移递交完全在计算机上进行,同时尽可能的减少人工干预,以保证信息数据的公平公正和及时性。以下从词典微观数

3、据结构和词典编纂工作流两个方面来谈深层次的计算机辅助编纂。1词典微观数据结构1.1词典微观数据结构的定义词典编纂以大规模词条文本信息为基础数据,这些信息是相当分散和独立的,如何将这些分散、孤立的各类信息变成网络化的信息资源,将众多孤岛式的信息系统进行整合,实现信息的快捷流通和共享,是词典行业信息化过程中亟待解决的问题。简单的来说,就是如何设计词典微观数据结构。Chomsky认为词库是词汇成分的集合,而每一词汇成分又是特征的集合;词库必须明确每一词汇成分所独有的语音、语义和句法特征[2]。词典微观数据结构是词

4、条的结构[3],本文中的词典微观数据结构就是指词汇特征集合(并不完全等同于Chomsky的词汇特征分类);研究词典微观数据结构的目的就是为了更好的保证数据的有效交换和长期保存数据。1987年秋,由人文学科计算机协会(ACH)、文学与语言学计算机处理协会(ALLC)与计算语言学协会(ACL)联合提出了《文本编码倡议》(TextEncodingInitiative,简称TEI)[4]。TEI的主要任务就是制定出一套用于电子文本的描述方法、标记定义、记录结构和文本编码方式。TEI是专门制定的针对文字处理的通用编码

5、标准,使用标准通用标记语言(SGML)和可扩展标记语言(XML)等通用编码规范,为学术性出版机构、数据库管理和办公自动化的文本处理与广泛交流奠定了基础。本文中的词典微观数据结构标准制定的基础来自于TEI,通过对词汇的相关特征数据信息进行分类处理,形成完整的词典微观数据结构标准,以满足计算机识别和自然任阅读的需要。1.2词典微观数据结构模型如前所说词典微观数据结构是围绕词条信息而言的,词典微观数据结构从理论上讲应该包含词汇所有的词条相关特征信息,在实际的计算机系统应用中应做适当的裁剪。词条特征信息,具体地讲,

6、在词典微观结构中字段表现为一个末端数据项,如单一词目(lemma)的拼写、读音、词类、句法、搭配、释义、例证、内词条、参见、辞源、附加说明等简单信息形式[5]。通过对词汇特征分析并加以裁剪,可以构建图1所示的词典微观数据结构(以不同的词典理论为依据可以形成不同的词典微观数据结构。)。图1词典微观数据结构模型示意图词典微观数据结构以依赖于词形序号的词目(即同形词目词)为出发点,分为三大部分:基本信息、义项例证和扩展附加。基本信息只包括:读音、词缀和词源等;义项例证信息包括词性、义项和例证等,同一词性可以并存多

7、个义项,同一义项也可能并存多个例证;扩展附加信息主要有三个部分:内词条、参见词和附加成份。2工作流2.1工作流的定义和分类工作流(Workflow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算[6][7]。工作流解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递文档、信息或者任务。工作流属于计算机支持的协同工作(ComputerSupportedCooperativeWork,CSCW)的一部分

8、。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。国际上对工作流的分类有各种不同的标准,按工作流的用途和技术特点分为以下四种类型:生产型、管理型、协作型和特定型[8]。生产型(Production):它是一种高端工作流系统,工作流的高级形式,用于实现企业业务关键流程的自动化,系统多运行于大规模,复杂,异构的环境上.系统所管理的流程与相应执行实体或组织的功能直接相关,往往需要大量组织和人员的参与,如银行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。