电子词典词库的压缩技术研究与实现.pdf

电子词典词库的压缩技术研究与实现.pdf

ID:52469662

大小:347.54 KB

页数:4页

时间:2020-03-27

电子词典词库的压缩技术研究与实现.pdf_第1页
电子词典词库的压缩技术研究与实现.pdf_第2页
电子词典词库的压缩技术研究与实现.pdf_第3页
电子词典词库的压缩技术研究与实现.pdf_第4页
资源描述:

《电子词典词库的压缩技术研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第卷第期计算机工程与设计仪只年月」文章编号叫一一中图分类号文献标识码电子词典词库的压缩技术研究与实现,,杨岸丁汉熊有伦华中科技大学机械学,湖北武汉院摘要介绍了一种在公司的上设计的多功能电子词典中词库的建立方法,讨论了哈夫曼算法和系列算法,介绍了哈夫曼算法和算法在电子词典字库压缩中的实现,最后比较了这两种方法压缩词库后的结果。关键词数据压缩哈夫曼算法词库算法,,白一,苏,,,即法,至此压缩技术进入了实用化的阶段。本文论述了哈引言,夫曼算法和系列算法介绍了哈夫曼算法和算关于数据压缩的研究,有些学者认为始于世纪末法在电子词典字库中压缩技术的实现,最后比较了这两。“”叩所做的关于实数

2、舍入为固定十进制数的种方法压缩词典库后的结果研究,也有人认为世纪研制的莫尔斯代码是数据压缩。开发环境及编译的基本原理的第一次尝试比较系统的研究始于年代初形成的。“十信息论年发表了我们首先在下建立一个电子词,’,。,守一文标志着信息论的诞生不典的仿真平台在仿真平台上完成电子词典所有功能的久,他和的几乎同时提出了最早的对符号调试,然后利用编译器将编好的语言文件编译成进行有效编码从而实现数据压缩的一。编码方能够识别的机器代码。法。年提出了基于符号频率统计的哈是一种低电压、高效率的位处理器,属于,,,它被广泛应用在各个领域,如电子、夫曼压缩算法由于具有良好的压缩性能一直占据重要系列词

3、典电子袖珍,。,。的地位并不断有基于其改进的算法提出年两位笔记本等编译器是公司针对内‘核,以色列科学家和发表了论文,芯片推出的一种编译器它首先将语言文件生成,,,,提文件然后编译器将文件编译成和妙出了一种不同于以往的基于字典的压缩算法,年文件,根据、、助又提出了改进算法,把无损压缩编码算法的研究推将包含在该中的文件连接成不超过。的,二进向了一个全新的阶段年提出了算文本文件再用将文件转换成基金“”。一一。项目国家高技术计划基金项目收稿日期一,,,,作者简介杨岸一,男,湖南人,硕士研究生,研究方向为嵌入式软件开发丁汉男安徽人博士生导师研究方向为先进、、、、一,,,,研究方向为先进

4、制造技术机器人学制造自动化和机器人学计算制造嵌入式网络和应用熊有伦男湖北人博士生导师精密测量。,曼算法一。制的文件最后使用根据提供和哪压缩算法。的信息生成装入的文件。本文中词库的压缩采用了无损压缩算法无损压缩技术分为两类基于统计模型的技术和基电子词典词库的建立。于字典的压缩技术基于统计模型的压缩技术主要是根,据源,电子词典词库由个英文单词组成每个单词加文件中字或词出现的频率以统计编码模型为基础、、、、、进行,如哈夫曼算法。之简明释义词性用法例句词义辨析相关词常用搭压缩基于词典的压缩技术是以类配及练习等内容,每个词项平均长度为字节。按下似查字典的方式进行编码,用较长的字符串或经

5、常出现列步骤建立词库的字母组合构成字典中的数据项,并用相应较短的数字建立词典对应表或符号作为代码表示,进而实现数据压缩。,‘二一、、、二、一、,哈夫曼树及哈夫曼算法二二建,。,立首字母偏移量偏移量为长整形为了对算法的分析进行说明首先进行一些定义,,,建立每个单词在其对应字母位置开始的偏移量侨树中的第个字符毛簇延二偏移量为整形八对应字符的概率,延八毛,,⋯⋯‘二瓜二为⋯为对应字符的哈夫曼编码从表‘⋯⋯示字符编码长度对初始词库内容添加分隔符哈夫曼树又称最优二叉树,是一种带权路径长度最单词和单词之间使用分隔符短的二叉树。所谓树的带权路径长度,就是树中所有的一每个单词内部,词义辨析之

6、前使用分隔符叶结点的权值乘上其到根结点的路径长度若根结点为,层,叶结,每个单词内部相关词之前使用分隔符点到根结点的路径长度为叶结点的层数通,词组搭配之前使用分隔符每个单词内部伙常记作,。每个单词内部练习之前使用分隔符、环子忆艺矶卜使用某种压缩算法压缩词库,建立对应的编码库。其中琳为叶子的权,人为根到叶子的路径长度。对于具有使用时,根据、、项找到单词内容在词库中的偏移个权值,砒,⋯,,构造一颗具有个结点的二叉树,量,然后一次取字节,直到解码后发现分隔符位置。每个,,则其中带权路径长度砰刃乙二,。叶结点带权最小的叉然后根据编码找出对应的实际字符。,树为哈夫曼树哈夫曼树是一类严格的

7、二叉树树中不数据压缩及其分类存在度为的结点。这样,一颗有个叶结点的哈夫曼树,共有一个结点,可以用一个大小为一的位串来表数据压缩是为了节省信息的存储空间和提高信息的。传输效率,对需要压缩的数据进行某种编码,使编码后的不“。于年第次发表了他的论文最小总长度小于源数据的总长度数据压缩有很多不同的分冗余度代码的构造方法,类方法,按压缩过程的可逆性通常分为无损压缩和有损,。给出了对于给定的叶子数目压缩两种,。有损压缩是指使,及其权值构造最优二叉树的方法俗称哈夫曼算法其用压缩后的数据进行重构重构后的数据与原来的数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。