基于上下文无关文法的数据抽取规则

ID：5265740

大小：154.31 KB

页数：4页

时间：2017-12-07

资源描述：

《基于上下文无关文法的数据抽取规则》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、第19卷第5期河南城建学院学报Vol.19No.52010年9月JournalofHenanUniversityofUrbanConstructionSep.2010文章编号:1674-7046(2010)05-0053-4基于上下文无关文法的数据抽取规则宋娜娜(郑州航空工业管理学院信息科学学院,河南郑州450000)摘要:在对文本数据文件的数据结构深入分析的基础上,提出了利用上下文无关文法表示数据抽取的规则,指明可以利用XML语言的特点,实现文本数据文件结构的表示文法,解决了文本数据ETL技术中涉及的重要问题,即复杂数

2、据表示问题。关键词:上下文无关文法;数据抽取;XML中图分类号:TP311.1文献标识码:A通过分析大量的企业信息系统产生的文本数据的异同点,从文本数据携带的信息和数据结构形式出发,将文本数据文件结构归纳为:文件名:在文件名中存在的一些重要数据应该被提取出来。文件内容:文本文件的内容是最重要的部分,从结构上又可将文件的内容分为表头、表体、表尾三大部分。分别表示实际数据的不同方面,综合起来则可以表示完整的无缺失的数据。[1]在对文本数据文件结构分析的基础上,需要将这些数据的抽取规则表示出来。文法是描述语言的语法结构的形式规

3、则,这些规则是准确和易于理解的,而且有相当强的描述能力,足以描述各种不同[2]的结构,上下文无关文法所定义的语法范畴是完全独立于这种范畴可能出现的环境的,用上下文无关文法来表示数据抽取规则比较合适。1上下文无关文法上下文无关文法包括四个组成部分:一组终结符号,一组非终结符号,一个开始符号以及一组产生式。形式上讲,一个上下文无关文法G是一个四元式(Vt,Vn,S,),其中:Vt是一个非空有限集,它的每个元素称为终结符号;Vn是一个非空有限集,它的第个元素称为非终结符号,VtVn=;S是一个非终结符号,称为开始符号;*

4、是一个产生式集合(非空有限集),每个产生式的形式是Pa,其中,P!Vt,a!(Vt∀Vn)。开始符号S至少必须在某个产生式的左部出现一次。本文用::=代替,用<>表示终结符号,用#∃表示非终结符号。2文件名结构分析大量的企业信息系统都有自己的一套文本数据文件名的生成规则,即在%.&后面放置有用的信息或在文件名的特定几位上表示所需要的有用信息。若在有用信息与其它信息之间有某种特定的分隔符,则以这个特定的分隔符为标记,提取出有用信息。若在有用信息与其它信息之间没有特定的分隔符,而是在特定的位上放置有用信息,则指定信息提取的起始位置和长

5、度,并取出有用信息。收稿日期:2010-03-21作者简介:宋娜娜(1979-),女,河南省新乡人,硕士,郑州航空工业管理学院信息科学学院助教。54河南城建学院学报2010年9月文件名数据抽取规则的文法表示为:#文件名∃::=#按分隔符抽取∃

6、#按位置抽取∃#按分隔符抽取∃::=<分隔符号><从第几个符号开始><至第几个符号结束>#按分隔符抽取∃<分隔符号>::=某个特定符号<从第几个符号开始>::=开始分隔符编号(数字值)<至第几个符号结束>::=

7、结束分隔符编号(数字值)#按位置抽取∃::=<数据开始位置><抽取数据长度>#按位置抽取∃<数据开始位置>::=数据在文件名中的开始位置值(数字值)<抽取数据长度>::=需提取的数据长度(字符个数,数字值)3文件内容分析将文件内容的结构分为表头、表体、表尾三部分分别进行研究。其中,表头和表尾在某些文本数据文件中可能存在,也可能不存在,但表体作为表达数据信息的主体部分应该总是存在的。3.1表头数据的结构分析作为基本结构的开始,表头部分往往包含着以下信息:∋需滤掉的说明信息行:指整个数据块的说明部分,包括数据来源、对应的报

8、表名称等。(需保留的数据行:相对于之前需滤掉的多余信息,这部分信息是需要保存到数据库中的。不论这部分数据量的大小,它们都将被抽取出来,并与后面的表体数据和表尾数据组合成一个完整的数据行。对这些需保留的数据的抽取方法主要有以下两种:∋从特定分隔字符后抽取指定长度的字符;(从指定位置开始直接抽取指定长度的字符。综合以上的分析,可以得到描述表头结构及抽取规则的文法如下:#表头数据∃::=#行数据信息∃#表头数据∃

9、#行数据信息∃#行数据信息∃::=#开始标志行∃

10、#需过滤数据行∃

11、#需保留数据行∃#开始标志行∃::=#包

12、含特征字符串行∃

13、#等于特征字符串行∃

14、#匹配特征字符串行∃#需过滤数据行∃::=#包含特征字符串行∃

15、#等于特征字符串行∃

16、#匹配

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于上下文无关文法的数据抽取规则

基于上下文无关文法的数据抽取规则

相关文章

相关标签