资源描述:
《从Postscript格式文献中提取数学公式方法.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、从Postscript格式文献中提取数学公式的方法概述从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个研究方向。主要针对以Word和Latex为生成源的Postscript文档,提出基于内容的数学公式提取方法。首先重载Postscript语言中的一些相关命令,先后提取出文档中的字符及由线段连接得到的图形。然后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出
2、完整的数学公式。PS语言PS(Postscript)是Adobe公司在1985年发明的一种解释性页面描述语言,它拥有强大的图形功能以支持文字、图形与图像的显示和打印,并可在图文编辑环境和打印设备之间传递信息,具有设备无关性的优点。PDF(Portabledocumentformat)是一种基于PS语言的电子文档格式。PS和PDF文档的生成和转化(1)编写PS语言代码。(2)由PS/PDF虚拟打印机生成。(3)由应用程序转化而成。(e.g:AcrobatDistiller;Divps)(4)PS和PDF文档可以通过ps2pdf/pdf2p
3、s等程序进行相互转化。PS语言特点(1)基于栈的存储和执行,所有命令和操作数都存储在栈中。(2)操作数在前,操作命令在后。(3)支持多种数据类型。(4)可自由定义操作命令以扩展功能。(5)程序代码完全由ASCII字符编写,可在任意文本编辑工具中编辑。(6)支持头文件(prolog)和脚本(script)的文件的文件组织结构。头文件中主要包含脚本中命令和过程的定义。PS语言由解释器进行解释执行,控制打印机或显示设备进行输出。PS中文本的显示机制(1)字符串(e.g:(Thisisacat)( 98))(2)字体(3)显示位置(4)显示命
4、令(show,ashow,widthshow,awidthshow,kshow,xshow,yshow,xyshow等)PS显示文本的过程数学符号提取从PS文档中正确提取出数学公式的前提是提取并识别出文档中的数学符号。由于数学符号同其他字符混杂在一起,这需要首先提取出文档中的字符然后经过判别,筛选出其中的数学符号。此外,一些数学符号不是由字符而是由图形所表示的。例如在以Word文档为生成源的PS文档中,根号表示为4条顺次连接的线段。在由Latex文档转换得到的文档中,根号表示为由4条线段封闭连接形成的狭长矩形。因此,除了提取字符,还需要
5、提取出这些表示特殊数学符号的图形。字符提取从PS文档中提取字符可以视为一个解码过程。字符提取的目标是提取出PS文档中的所有字符的相关信息。这些信息用来判断字符是否为数学符号,包括字符名称、字体信息字体类型和字体名称以及位置信息。具体步骤:(1)重载showashowwidthshowawidthshowkshowxshowyshowxyshow等显示命令,提取出字符串;(2)加载当前字体词典,访问其字体类型和字体名称;(3)根据每个字符的字符编码,在字体词典的编码表中索引对应的字符名称;(4)对每一个字符,根据显示命令的位置参量,设置正
6、确的当前位置,并用charpath命令得到其应字形的图形构造路径,之后用pathbbox命令得到字形的最小外接矩形;(5)对外接矩形坐标进行坐标变换,由PS用户坐标变换至最终显示的页面坐标,从而得到字符的位置信息。图形提取绝大多数表示数学符号的图形都是由线段连接组成的封闭或开放的图形。方法是先提取出所有线段,然后找出相连接的线段以组成图形。数学符号识别在提取出文档中的字符之后,接下来是判断其是否为数学符号。判断的依据是字符的息,包括字符名称、字体信息以及位置信息。字符名称能够反映一个字符的本质含义,是判别数学符号的基本依据。字体信息(包
7、括字体类型和字体名称)也是判断数学符号的重要依据。数学公式和普通文本的区别很大程度上在于数学符号的二维空间排列性质,因此子图位置信息也很重要。对于提取出的图形,先对其进行编码,然后根据编码识别其对应的数学符号。首先给出一个绘制方向的定义:对开放的图形,即折线段,规定起点为折线段两端点中x坐标较小者(x坐标相等时,取y坐标较大者),另一端点则为重点,沿各点段由起点到终点的行进方向为绘制方向;对封闭的图形,起点选择为各端点中x坐标最小者,规定绘制方向为由起点以顺时针沿各线段行进,最后回到起点的方向。规定了绘制方向后,以下图所示的八方向编码依
8、次对图形中各线段进行标记,这样可以得到整个图形的编码。构造图形编码与数学符号的映射表,根据图形编码可以识别出它对应的数学符号。数学公式提取经过前面的处理,已经提取出了各种数学符号。下一步是将这些孤立的数学符