欢迎来到天天文库
浏览记录
ID:32791911
大小:264.50 KB
页数:4页
时间:2019-02-15
《中文分词技术在智能操作票系统中的应用new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中文分词技术在操作票系统中的应用许先锋,庄卫金国电南瑞科技股份有限公司4/4摘要:总结操作票系统的应用现状。介绍中文分词技术的基本定义和方法。针对智能出票存在智能化程度低、操作票查询手段单一的问题,提出利用中文分词技术实现人工写票的智能化处理和操作票的全文信息检索。并针对操作票的特点对中文分词技术进行了改进。本方法实现人工写票和智能出票的统一,操作票查询的智能化处理,具有良好的应用前景。关键词:中文分词;智能操作票;全文信息检索0引言操作票系统广泛应用在电力系统调度、监控系统中,是调度员、监控员日常倒闸操作的重要依据和安全保障。操作票系统的
2、设计目的是:实现操作票运行管理的智能化、信息化水平,减轻运行人员工作负担,提高工作效率,防止误操作现象出现,保障电网操作安全和运行安全。多年来,为了提高操作票系统的智能性、准确性、快速性、安全性,已经有大量的此类研究,也有大量的系统投入实际运行。从目前应用情况来看,智能操作票系统在标准接线方式、标准操作任务的出票中取得了良好的效果。但由于电网运行方式、接线方式的复杂多变,以及各地操作规程、操作习惯的不统一,对于复杂的倒方式、投运等操作来讲,智能操作票系统很难解决。在这种情况下,调度员、监控员只能依赖人工电脑写票完成日常工作写票工作。随着调度
3、员、监控员计算机水平的提高,以及中文输入法智能化水平的提高,人工电脑写票的效率也逐步提高。从管理的角度出发,领导也不希望由于完全依靠智能出票而导致调度员、监控员业务能力的下降。但人工电脑写票无法进行安全防误校核,给电网安全操作造成隐患。此外,目前操作票系统的检索手段单一,主要依靠用户输入精准的查询条件后方可以查询出需要的操作票信息,智能化程度低。目前基于全文信息检索的搜索引擎在互联网中被广泛使用,如Google、百度等。将全文信息检索技术引入操作票系统中可以彻底改变操作票的查询手段和查询效率。而中文分词技术是全文信息检索的核心技术之一。本文
4、将中文分词技术应用到智能操作票系统中,用以实现人工电脑写票或人工电脑改票的智能解析、自动纠错、操作票的全文信息检索,将人工写票和智能出票完美结合,既发挥计算机智能开票的优势,又发挥调度员人工写票的灵活性优势,满足不同场景下开票需求。1中文分词技术1.1什么是中文分词技术分词就是将连续的字(词)序列按照一定的规范重新组合成词序列的过程。《信息处理用现代汉语分词规范》中对分词的定义是:从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。对于英文分词,只要简单地以空格为分界符就能很好地把句子分析出来。不同于英文,计算机对中文分词时
5、,由于中文句子中词与词之间是没有空格的,而且,两个字组合起来看似是一个词在句子中未必是一个词,所以计算机想要识别出中文句子中的词,就必须采用不同于英文分词的新技术。1.2中文分词基本算法目前的中文分词算法主要分为三大类:基于字符串的方法、基于统计的方法和基于规则的方法。1.1.1 基于字符串的分词算法这种方法又叫做机械分词方法或基于词典的分词法。它由三个要素组成:分词词典、文本扫描顺序和匹配原则。分词词典中包含“充分多”4/4的词条,使得待切分的句子可以按照设定的扫描顺序和匹配原则。按照扫描顺序的不同,该分词方法可以分为正向匹配、逆向匹配、
6、双向匹配;按照匹配原则的不同,可以分为最大匹配、最小匹配、逐词匹配和最佳匹配。常见的几种基于词典的分词方法思想如下。1.1.1.1正向最大匹配算法正向最大匹配算法思想[3]:(1)从左往右取待切分汉语句的m个字符作为匹配字段,其中m为机器可读词典中最长词条的汉字个数。(2)查找机器可读词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。1.1.1.2 逆向最大匹配算法逆向最大匹配算法思想[4]:该算法是
7、对正向最大匹配算法的逆向思维,主要是从右往左对字符串进行最大匹配。匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。实验表明逆向最大匹配算法效果要优于正向最大匹配算法。1.1.1.3逐字匹配算法基于TRIE索引树的逐字匹配算法,是建立在树型词典机制上,匹配的过程是从索引树的根结点依次同步匹配待查词中的每个字,可以看成是对树某一分枝的遍历。因此,采用该算法的分词速度较快,但树的构造和维护比较复杂。一种改进的算法是和最大匹
8、配算法相结合,吸取最大匹配算法词典结构简单、TRIE索引树算法查询速度快的优点。因此词典结构和最大匹配词典构造机制相似,区别在于词典正文前增加了多级索引。匹配过程类似TRIE索引
此文档下载收益归作者所有