欢迎来到天天文库
浏览记录
ID:37940459
大小:230.33 KB
页数:35页
时间:2019-06-03
《CRF理论、工具包的使用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、CRF理论、工具包的使用及在NE上的应用廖先桃2006.4.6信息检索实验室提纲CRF理论CRF工具包的使用基于CRF的NE识别下一步工作信息检索实验室CRF理论CRF是ConditionalRandomFields的缩写,即条件随机域CRF理论相关PPT由赵世奇友情赞助☺信息检索实验室提纲CRF理论CRF工具包的使用基于CRF的NE识别下一步工作信息检索实验室CRF工具包的使用CRF工具包zhttp://crf.sourceforge.net/doc/java写的CRF工具包,有很详细的说明文档。zFlexCRFs:FlexibleConditionalRandomFields作者:Xua
2、n-HieuPhan和Le-MinhNguyenC++语言实现下载地址:http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.htmlzCRF++:YetAnotherCRFtoolkitC++语言实现,有windows下运行的exe程序以及Linux下运行的版本下载地址:http://chasen.org/~taku/software/CRF++/#features信息检索实验室CRF++的使用(1)CRF++的安装训练语料的格式特征模板的格式训练模型识别评测信息检索实验室CRF++的使用(2)CRF++的安装z编译器要求:C++编译器(gc
3、c3.0或更高)zLinux安装命令(依次执行):z注意:必须具有root帐号才能安装成功信息检索实验室CRF++的使用(3)训练语料的格式z训练和测试文件必须包含多个tokensz每个token包含多个列ztoken的定义可根据具体的任务,如词、词性等z每个token必须写在一行,且各列之间用空格或制表格间隔z一个token的序列可构成一个sentence,sentence之间用一个空行间隔信息检索实验室CRF++的使用(4)这是一个token训练语料的格式每个token包含3列,分别为词本身、词性和Chunk标记这是一个句子句子间用空行间隔信息检索实验室CRF++的使用(3)特征模板的格
4、式z模板的基本格式为%x[row,col],它用于确定输入数据中的一个tokenz其中,row确定与当前的token的相对行数。col用于确定绝对列数。信息检索实验室CRF++的使用(3)特征模板的例子col0col1col2z训练语料r-2r-1r0r1r2z特征模板信息检索实验室CRF++的使用(3)特征模板的类型z第一种以字母U开头,为Unigramtemplate。z当模板前加上U之后,CRF会自动生成一个特征函数集合(func1...funcN),如:信息检索实验室CRF++的使用(3)特征模板的种类z一个模型生成的特征函数的个数总数为L*N,其中L是输出的类别数,N是根据给定的t
5、emplate扩展出的独立串(uniquestring)的数目。信息检索实验室CRF++的使用(3)特征模板的种类z第二种特征模板以B开头,即Bigramtemplatez它用于描述Bigram特征。系统将自动产生当前输出token与前一个输出token的组合。产生的可区分的特征的总数是L*L*N,其中L是输出类别数,N是这个模板产生的uniquefeatures数。z优点:提高识别效果z缺点:当类别数很大的时候,这种类型会产生许多可区分的特征,这将会导致训练和测试的效率降低。信息检索实验室CRF++的使用(3)特征模板的类型z两种模板的区别z注意:Unigram/Bigram是指输出tok
6、en的Unigram/Bigrams,而不是特征zunigram:
7、outputtag
8、×
9、从模板中扩展的所有可能串
10、zbigram:
11、outputtag
12、×
13、outputtag
14、×
15、从模板中扩展的所有可能串
16、信息检索实验室CRF++的使用(3)#表示注释,将被忽略特征模板的例子为区分特征给特征的编号得到的结果都为DT信息检索实验室CRF++的使用(3)训练模型z使用crf_learn命令z其中,template_file和train_file需由使用者事先准备好。crf_learn将生成训练后的模型并存放在model_file中。信息检索实验室CRF++的使用(3)训练模型z屏幕显示信息i
17、ter:迭代次数terr:和tags相关的错误率(错误的tag数/所有的tag数)serr:与sentence相关的错误率(错误的sentence数/所有的sentence数)obj:当前对象的值。当这个值收敛到一个确定的值是,CRF模型将停止迭代diff:与上一个对象值之间的相对差信息检索实验室CRF++的使用(3)识别z使用crf_test命令z其中,model_file是crf_learn创建的。在测试
此文档下载收益归作者所有