欢迎来到天天文库
浏览记录
ID:27333247
大小:64.00 KB
页数:11页
时间:2018-12-02
《基于文字结构特征的文本图像方向的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于文字结构特征的文本图像方向的研究与应用-->1绪论1.1研究背景与意义随着经济和科技的发展,计算机技术越来越占据重要的地位,多媒体技术产品也越来越走近我们的生活。将印刷的纸质书籍、文档资料和报纸等大量文字信息以音频播报的方式让人获取,成为越来越多的研究者们关注的焦点。鉴于视障者的特殊需求以及他们在阅读普通书籍遇到的困难,将文字信息用语音的方式阅读给他们听,让这类人群更好更方便的获取正常的生活知识信息成为了研究的热点。为此,北方工业大学开发研制了“盲人阅读辅助器具”(后面简称阅读器,阅读器通过摄像头将纸质文档拍摄为图像,先对图像进行必要的前期处理,然后通过DCR识别技术
2、将文本图像识别为文本的形式,最后通过TTS语音合成技术,将TXT文本通过语音播报的方式输出,实现了文字信息到声音信息的自动转换。如图模型所示,阅读器的卡纸可以很好的限制纸张倾斜放置,然而盲人和视力障碍者并不能分辨纸张的放置方向和文档的内容方向,进而导致摄像头抓获的文本内容出现横放和倒置的现象。目前对于规则方向的文本方向检测与矫正,国内外学者也做了一些研究。文献提出了基于识别率反馈的文本图像方向检测算法。文献中提出的问题图像倒置快速检测算法,利用文本中标点和汉字的相对位置特征来判断是否倒置。文献提出了基于文字投影信息量判断文字方向的方图盲人阅读辅助器具法。文献中介绍了一种基
3、于文本内容方向置信度检测的装置,根据统计文本方向的置信度与库中对比来判断文本的方向。文献则介绍了基于汉字十字结构特征的文本方向检测方法。然而大多现存算法对通过拍照获取的图片的判断效果不好,同时由于嵌入式版的内嵌处理器问题,现有的算法并不能满足处理过程的时效性。因此本课题就是针对提高阅图读器实时判断文本方向并进行纠正处理而提出的。准确实时的判断出文本内容的方向对整个项目的目标有重要意义。也是阅读器纸书阅读功能能否更加智能的重要一步,具有重要的实用价值。1.2论文的研究方法和创新点;本文的研宄方法:在数字图像处理领域,对于图像的方向检测与矫正的算法很多学者已作过一些工作,但目
4、前的算法并不能满足项目的功能需求,同时即使一些算法能满足项目部分模块的功能需求,但是在准确性和效率方面并不能直接用于项目中,实用性并不是很好。所以本课题在总结前人对文本图像研宄工作的基础上,结合文本排版的特征和文字结构与笔画特征,研究并实现了适合用在视障者阅读辅具上的一种针对文档排版和规则方向的检测校正的算法,并且运用大量文档图像进行实验,以统计算法的准确性并通过实验得出算法中一些参数的经验值以提高算法的执行效率。本文的创新点:(1)在检测文本图像文本线走向时,分别利用文本图像的投影统计特征和文本行延伸的方法,快速的判断文本图像所属的校正类别;(2)利用连通域搜索的方法进
5、行字符分割,通过计算字符的宽和高,利用普通印刷汉字的宽高比结合文本线的走向判断文本的排版方式;(3)运用动态回归的笔画跟踪算法提取汉字撇笔画的轨迹,快速抽取到目标笔画;(4)利用汉字撇笔画的书写特征结合上述算法,准确的判断出文本的方向并校正。(5)大量的实验验证后将部分算法移植到阅读器上应用。2阅读书阅读系统的组成纸书阅读系统主要涉及到计算机视觉、模式识别和语音转换输出等技术。首先通过摄像头获取待识别的对象(即文本图像),经过计算机系统处理和文字识别,得到文本的文字信息,最后通过输出设备转换为语音输出。系统的大致过程如下图2.1:其中计算机系统模块包括三个部分:预处理、方
6、向判断与矫正和文字识别。图像预处理是整个系统的前提,然后对文本内容的方向进行检测和矫正,这是汉字识别结果的决定性因素。最后将处理好的文本图像通过进行文字识别,得到文本内容,进而进行下一步的语音转换输出播报目标书籍或杂志的内容。2.1图像采集2.1.1图像获取课题最终的目的是要做成便携式的智能阅读器,显然扫描设备的庞大体积并不能满足课题的需求,而越来越精巧的数码摄像头恰好可以满足便携的要求,因此本系统运用摄像头图像采集作为输入设备。图像采集就是纸质文档进行图像数字化,主要涉及到成像及模数转换技术。图像采集设备一般包括电稱合设备高像素摄像头和图像采集卡首先通过高灵敏摄像头获取
7、到模拟图像信号,然后利用图像采集卡对模拟信号进行采集和处理,将模拟信号转化为数字图像。目前市场上很多流行的数码成像设备都内嵌了功能硬件而不需要其它数字化设备的支持,可以直接运用串口、并口或移动接口向计算机输入数字图像,且具有很高的分辨率,方便用户进行编辑和使用。2.1.2图像存储格式本系统运用摄像头采集图片,将图片以格式存储。位图是将图像中的全部像素转换为数据,完整的记录图像的信息,因此存储时所占用的磁盘空间会很大。为了减小存储图片的磁盘空间开销,系统采用了8位位图,而不是24位未位图。BMP位图采用二维矩阵表示,其中包含:“
此文档下载收益归作者所有