CRF理论、工具包的使用

CRF理论、工具包的使用

ID:37940459

大小:230.33 KB

页数:35页

时间:2019-06-03

CRF理论、工具包的使用_第1页
CRF理论、工具包的使用_第2页
CRF理论、工具包的使用_第3页
CRF理论、工具包的使用_第4页
CRF理论、工具包的使用_第5页
资源描述:

《CRF理论、工具包的使用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、CRF理论、工具包的使用及在NE上的应用廖先桃2006.4.6信息检索实验室提纲CRF理论CRF工具包的使用基于CRF的NE识别下一步工作信息检索实验室CRF理论CRF是ConditionalRandomFields的缩写,即条件随机域CRF理论相关PPT由赵世奇友情赞助☺信息检索实验室提纲CRF理论CRF工具包的使用基于CRF的NE识别下一步工作信息检索实验室CRF工具包的使用CRF工具包zhttp://crf.sourceforge.net/doc/java写的CRF工具包,有很详细的说明文档。zFlexCRFs:FlexibleConditionalRandomFields作者:Xua

2、n-HieuPhan和Le-MinhNguyenC++语言实现下载地址:http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.htmlzCRF++:YetAnotherCRFtoolkitC++语言实现,有windows下运行的exe程序以及Linux下运行的版本下载地址:http://chasen.org/~taku/software/CRF++/#features信息检索实验室CRF++的使用(1)CRF++的安装训练语料的格式特征模板的格式训练模型识别评测信息检索实验室CRF++的使用(2)CRF++的安装z编译器要求:C++编译器(gc

3、c3.0或更高)zLinux安装命令(依次执行):z注意:必须具有root帐号才能安装成功信息检索实验室CRF++的使用(3)训练语料的格式z训练和测试文件必须包含多个tokensz每个token包含多个列ztoken的定义可根据具体的任务,如词、词性等z每个token必须写在一行,且各列之间用空格或制表格间隔z一个token的序列可构成一个sentence,sentence之间用一个空行间隔信息检索实验室CRF++的使用(4)这是一个token训练语料的格式每个token包含3列,分别为词本身、词性和Chunk标记这是一个句子句子间用空行间隔信息检索实验室CRF++的使用(3)特征模板的格

4、式z模板的基本格式为%x[row,col],它用于确定输入数据中的一个tokenz其中,row确定与当前的token的相对行数。col用于确定绝对列数。信息检索实验室CRF++的使用(3)特征模板的例子col0col1col2z训练语料r-2r-1r0r1r2z特征模板信息检索实验室CRF++的使用(3)特征模板的类型z第一种以字母U开头,为Unigramtemplate。z当模板前加上U之后,CRF会自动生成一个特征函数集合(func1...funcN),如:信息检索实验室CRF++的使用(3)特征模板的种类z一个模型生成的特征函数的个数总数为L*N,其中L是输出的类别数,N是根据给定的t

5、emplate扩展出的独立串(uniquestring)的数目。信息检索实验室CRF++的使用(3)特征模板的种类z第二种特征模板以B开头,即Bigramtemplatez它用于描述Bigram特征。系统将自动产生当前输出token与前一个输出token的组合。产生的可区分的特征的总数是L*L*N,其中L是输出类别数,N是这个模板产生的uniquefeatures数。z优点:提高识别效果z缺点:当类别数很大的时候,这种类型会产生许多可区分的特征,这将会导致训练和测试的效率降低。信息检索实验室CRF++的使用(3)特征模板的类型z两种模板的区别z注意:Unigram/Bigram是指输出tok

6、en的Unigram/Bigrams,而不是特征zunigram:

7、outputtag

8、×

9、从模板中扩展的所有可能串

10、zbigram:

11、outputtag

12、×

13、outputtag

14、×

15、从模板中扩展的所有可能串

16、信息检索实验室CRF++的使用(3)#表示注释,将被忽略特征模板的例子为区分特征给特征的编号得到的结果都为DT信息检索实验室CRF++的使用(3)训练模型z使用crf_learn命令z其中,template_file和train_file需由使用者事先准备好。crf_learn将生成训练后的模型并存放在model_file中。信息检索实验室CRF++的使用(3)训练模型z屏幕显示信息i

17、ter:迭代次数terr:和tags相关的错误率(错误的tag数/所有的tag数)serr:与sentence相关的错误率(错误的sentence数/所有的sentence数)obj:当前对象的值。当这个值收敛到一个确定的值是,CRF模型将停止迭代diff:与上一个对象值之间的相对差信息检索实验室CRF++的使用(3)识别z使用crf_test命令z其中,model_file是crf_learn创建的。在测试

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。