CRF工具包使用简介

CRF工具包使用简介

ID:37844958

大小:42.50 KB

页数:11页

时间:2019-06-01

CRF工具包使用简介_第1页
CRF工具包使用简介_第2页
CRF工具包使用简介_第3页
CRF工具包使用简介_第4页
CRF工具包使用简介_第5页
资源描述:

《CRF工具包使用简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、CRF工具包使用简介最近我刚开始使用CRF工具包,里边的具体细节也没有研究明白,但论坛上有人询问工具包的使用,我就将它贴出来一下。希望和大家一起讨论讨论。另外需要说明的一点是,下面的内容是从crf工具包网页内容翻译的,可能理解上有偏差,翻译也有问题。所以还请大家指正。英文原文请大家参考网页。----------------------------------------CRFs工具包工具包地址:http://chasen.org/~taku/software/CRF++/#features,工具包包括Lin

2、ux环境下的源代码和Windows下的可执行程序。用C++编写。使用方法:(1)安装编译器要求:C++编译器(gcc3.0或更高)命令:%./configure%make%su#makeinstall注:只有拥有root帐号的用户才能成功安装。(2)使用(2.1)训练和测试文件的格式训练和测试文件必须包含多个tokens,每个token包含多个列。token的定义可根据具体的任务,如词、词性等。每个token必须写在一行,且各列之间用空格或制表格间隔。一个token的序列可构成一个sentence,sent

3、ence之间用一个空行间隔。最后一列是CRF用于训练的正确的标注形式。例如:He     PRP  B-NPreckonsVBZ  B-VPthe  DTB-NPcurrentJJI-NPaccountNNI-NPdeficitNNI-NPwill  MDB-VPnarrowVBI-VPto     TOB-PPonly  RBB-NP#    #I-NP1.8  CDI-NPbillionCDI-NPin     INB-PPSeptemberNNP  B-NP.    .OHe     PRP  B-N

4、PreckonsVBZ  B-VP..上面的例子每个token包含3列,分别为词本身、词性和Chunk标记。注意:如果每一个token的列数不一致,系统将不能正确运行。(2.2)准备特征模板使用该CRFs工具的用户必须自己确定特征模板。基本模板和宏l模板文件中的每一行代表一个template。每一个template中,专门的宏%x[row,col]用于确定输入数据中的一个token。row用于确定与当前的token的相对行数。col用于确定绝对行数。如已知下面的输入数据:Input:DataHe     P

5、RP  B-NPreckonsVBZ  B-VPthe  DTB-NP<<当前的tokencurrentJJI-NPaccountNNI-NP特征模板形式为:templateexpandedfeature%x[0,0]the%x[0,1]DT%x[-1,0]rokens%x[-2,1]PRP%x[0,0]/%x[0,1]the/DTABC%x[0,1]123ABCthe123模板类型l有两种模板类型,它们可由template的第一个字符确定。第一种是Unigramtemplate:第一个字符是U这是用于描述

6、unigramfeature的模板。当你给出一个模板"U01:%x[0,1]",CRF会自动的生成一个特征函数集合(func1...funcN),如:func1=if(output=B-NPandfeature="U01:DT")return1elsereturn0func2=if(output=I-NPandfeature="U01:DT")return1elsereturn0func3=if(output=Oandfeature="U01:DT")return1  elsereturn0....func

7、XX=if(output=B-NPandfeature="U01:NN")return1  elsereturn0funcXY=if(output=Oandfeature="U01:NN")return1  elsereturn0...一个模型生成的特征函数的个数总数为L*N,其中L是输出的类别数,N是根据给定的template扩展出的uniquestring的数目。第二种类型Bigramtemplate:第一个字符是B这个模板用于描述bigramfeatures。使用这个模板,系统将自动产生当前输出tok

8、en与前一个输出token(bigram)的组合。产生的可区分的特征的总数是L*L*N,其中L是输出类别数,N是这个模板产生的uniquefeatures数。当类别数很大的时候,这种类型会产生许多可区分的特征,这将会导致训练和测试的效率都很低下。使用标识符区分相对位置l如果用户需要区分token的相对位置时,可以使用标识符。比如在下面的例子中,宏"%x[-2,1]"和"%x[1,1]"都代表“DT”,但是它们又是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。