基于levenshtein算法在项目信息重复度检测中的优化及应用

基于levenshtein算法在项目信息重复度检测中的优化及应用

ID:31359332

大小:107.00 KB

页数:6页

时间:2019-01-09

基于levenshtein算法在项目信息重复度检测中的优化及应用_第1页
基于levenshtein算法在项目信息重复度检测中的优化及应用_第2页
基于levenshtein算法在项目信息重复度检测中的优化及应用_第3页
基于levenshtein算法在项目信息重复度检测中的优化及应用_第4页
基于levenshtein算法在项目信息重复度检测中的优化及应用_第5页
资源描述:

《基于levenshtein算法在项目信息重复度检测中的优化及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Levenshtein算法在项目信息重复度检测中的优化及应用  摘要:在政府经济管理部门的项目管理工作中,项目申报企业因为各种原因,在多个政府支持政策下重复申报同一个项目,给经济管理部门的项目管理协调工作带了很多问题。而且由于多年的项目积累,对数量巨大的项目进行人工重复监测是一件非常困难的事情,利用Levenshtein字符串相似度算法,并且使用中文分词进行优化,为各个项目信息指标进行相似度比较,可以快速筛选出重复申报的项目。  关键词:字符串相似度;重复检测;中文分词;项目信息  中图分类号TP301文献标识码:A文章编号:1

2、009-3044(2015)22-0126-02  Abstract:Inthegovernment'seconomicmanagementintheprojectmanagement,projectreportingcompaniesbecauseofvariousreasons,duplicatereportingthesameprojectsinanumberofgovernmentsupportpolicies,withalotofproblemstotheprojectmanagementtocoordinatethewo

3、rkofeconomicmanagementdepartment.Andwithmanyyearsofaccumulationofahugenumberofprojects,theprojectmanualmonitoringisaverydifficultthing,theLevenshteinstringsimilarityalgorithm,andtheuseofChinesesegmentationoptimization,informationindexofeachitem6similaritycomparison,can

4、quicklyfilteroutduplicatereportingproject.  Keywords:stringsimilarity;duplicatedetection;chinesewordsegmentation;projectinformation  近年来,我国财政对各个行业扶持资金投入快速增长,扶持项目和资金管理不断改进。财政及经济管理部门项目的申报审核管理更加严格。然而,不少项目申报单位为了获得更多的国家资金扶持,在不同的政策扶持中重复申报同一个项目,这样既不利于国家扶持资金的使用效率,也会让决策者得不到正确的宏

5、观经济数据[3]。  Levenshtein算法,用于计算两个字符串之间的Levenshtein距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。通过该算法获得两个字符串的相似程度,由于在本文中的应用场景为中文的项目信息,所以可以使用中文分词将文本进行分词优化后进行比较以提高项目相似度查重效率。  本文给出了一种基于Levenshtein算法并进行中文分词优化后的对项目申报信息进行查重的方法,减少了工作人员在海量项目中进行项目信息比较的工作

6、量,更准确的筛选出重复申报的可疑项目。  1Levenshtein算法[2]  使用Levenshtein算法可以计算出两个字符串的Levenshtein距离,Levenshtein距离用来描述两个字符串之间的差异。假如两个字符串的长度分别为m和n,原算法则需要建立一个m×6n的矩阵,如果两个字符串的长度分别达到10k个字符且为英文字符的话,则需要建立一个占用800M内存的矩阵用来存储运算结果。而新版本的算法只需要使用2×max(m,n)×8大小的内存来存储运算数据。经过优化过的Levenshtein算法比老版本的算法无论在运算效率

7、上,还是在内存占用上都有很大的优化与提高[4][5]。  2使用中文分词预处理  由于很多中文大文本数据指标比较的时候,中文分词是能够独立并且有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。使用中文分词预处理,降低字符串比较的维度,能使Levenshtein算法中的时间复杂度大大减少。  2.1Ansj中文分词工具  Ansj是一个开源的Java中文分词工具,基于中科院的ictclas中文分词算法,比其他常用的开源分词工具

8、(如mmseg4j)的分词准确率更高。Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。