资源描述:
《寻路算法在中文金融机构名匹配中的应用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、寻路算法在中文金融机构名匹配中的应用金融机构网点多,命名规则不一致,名称录入时的缩减文字、级别混淆等非规范操作,都严重影响业务办理效率。在对大量银行机构名分析之后,本文采用分支限界策略[3],来得到这个将机构名定位的寻路算法(PFA,Pathfindingalgorithm)。基本思路是:将中文金融机构名分成银行名、省名、市名和尾部混合名四部分,逐层剥离,去类型关键字,然后分别匹配来获取一系列原始匹配矩阵系数,再根据分支限界思想逐步修正匹配矩阵,最终得到最优解。该应用不使用数据库,纯程序语言处理,匹配精确高。己如果需耍分享,请保
2、留本段说明。关键词:机构名匹配;分段匹配;组织机构名称识别;寻路算法;分支限界策略TP391TheapplicationofPFAonmatchingChinesefinancialinstitutionnamesYINChi-dongl,HUANGSheng-ye2,EZhi-feng3(1.CollegeofInformationScienceandEngineering,HunanUniversity,Changsha,410082,China;2.CollegeofInformationScienceandEnginee
3、ring,HunanUniversity,Changsha,410082,China;3.DepartmentofScienceandTechnology,ChangshaBranch,GuangdongDevelopmentBank,Changsha,410005,China)Abstract:Therearemanyfactorsthataffectworkefficiencyseriouslysuchasvariousbranches,differentnamingrules,inputingomission,levelc
4、onfusion.Afteranalyzingnumerousnames,thepaperadoptsBranchandBoundStrategy[3]toobtainthePathfindingalgorithmofdefininginstitutionname.Thebasicideaisasfollowing:1.Dividingthecompleteinstitutionnameintobankname,provincename,citynameandtherearname.2.Extractingeachnameasa
5、boveinorder.3.Removingalltypekeywords.4.Matchingeachparttogetsomerawmatrixcoefficients.5.AdjustingthesematrixcoefficientsstepbystepaccordingtoBranchandBoundStrategytogettheoptimalsolution.Theapplicationdoesnotinvolvedatabase.Dataisprocessedbyprogrammelanguagecomplete
6、ly.Matchingdegreeishigh.Keywords:matchingfinancialinstitutionnames;segmentmatching;distinguishoforganizationnames:Pathfindingalgorithm;BranchandBoundStrategy1引言当前,银行业务中的机构名匹配一直都是靠人工核对的,工作效率低,很多银行甚至不愿接相关业务。个别银行采取了一些积极措施,在存在一定错误率的代价下,大大提高了工作效率。银行数据的海量性,使错误量几何级数般放大。所以现有
7、的解决办法亟待完善。本文课题正是应这种需求而产生,更具体说是作为银行“代付保费业务系统”的核心算法单独展开的。我们先来探讨一下需求的必要性和需求到底是什么。比方说,保险公司交给银行一份数百人的赔付名单,名单上赔付对象的开户行填写情况纷乱繁多,存在各种缩写和混淆情况,又没有机构编号(保险公司没存记录)。银行根据这份名单转账前必须将这些开户行名称准确地对应上它们的标准名称,否则转账就会出错。本文需求由此产生。除了将名单上的机构名正确地一一对应上它们的标准名称,还有两个需求点必须告知读者。第一,考虑到安装和使用方便,不能使用数据库服务
8、器,那就完全只能使用程序语言,借助算法来实现匹配。第二,所右关键词库要便于维护,最好的选择是以记事本文件形式存放在程序包内。程序运行的时候,自动从相应位置读取需要的数据。第三,名单是Excel文件的电子形式,反馈出来的信息也必须是Excel文件。在机构名识别领域