CRF工具包使用简介

ID：37844958

大小：42.50 KB

页数：11页

时间：2019-06-01

资源描述：

《CRF工具包使用简介》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、CRF工具包使用简介最近我刚开始使用CRF工具包，里边的具体细节也没有研究明白，但论坛上有人询问工具包的使用，我就将它贴出来一下。希望和大家一起讨论讨论。另外需要说明的一点是，下面的内容是从crf工具包网页内容翻译的，可能理解上有偏差，翻译也有问题。所以还请大家指正。英文原文请大家参考网页。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－CRFs工具包工具包地址：http://chasen.org/~taku/software/CRF++/#features，工具包包括Lin

2、ux环境下的源代码和Windows下的可执行程序。用C++编写。使用方法：(1)安装编译器要求：C++编译器(gcc3.0或更高)命令：%./configure%make%su#makeinstall注：只有拥有root帐号的用户才能成功安装。(2)使用(2.1)训练和测试文件的格式训练和测试文件必须包含多个tokens，每个token包含多个列。token的定义可根据具体的任务，如词、词性等。每个token必须写在一行，且各列之间用空格或制表格间隔。一个token的序列可构成一个sentence，sent

3、ence之间用一个空行间隔。最后一列是CRF用于训练的正确的标注形式。例如：He PRP B-NPreckonsVBZ B-VPthe DTB-NPcurrentJJI-NPaccountNNI-NPdeficitNNI-NPwill MDB-VPnarrowVBI-VPto TOB-PPonly RBB-NP# #I-NP1.8 CDI-NPbillionCDI-NPin INB-PPSeptemberNNP B-NP. .OHe PRP B-N

4、PreckonsVBZ B-VP..上面的例子每个token包含3列，分别为词本身、词性和Chunk标记。注意：如果每一个token的列数不一致，系统将不能正确运行。(2.2)准备特征模板使用该CRFs工具的用户必须自己确定特征模板。基本模板和宏l模板文件中的每一行代表一个template。每一个template中，专门的宏%x[row,col]用于确定输入数据中的一个token。row用于确定与当前的token的相对行数。col用于确定绝对行数。如已知下面的输入数据：Input:DataHe P

5、RP B-NPreckonsVBZ B-VPthe DTB-NP<<当前的tokencurrentJJI-NPaccountNNI-NP特征模板形式为：templateexpandedfeature%x[0,0]the%x[0,1]DT%x[-1,0]rokens%x[-2,1]PRP%x[0,0]/%x[0,1]the/DTABC%x[0,1]123ABCthe123模板类型l有两种模板类型，它们可由template的第一个字符确定。第一种是Unigramtemplate：第一个字符是U这是用于描述

6、unigramfeature的模板。当你给出一个模板"U01:%x[0,1]"，CRF会自动的生成一个特征函数集合(func1...funcN)，如：func1=if(output=B-NPandfeature="U01:DT")return1elsereturn0func2=if(output=I-NPandfeature="U01:DT")return1elsereturn0func3=if(output=Oandfeature="U01:DT")return1 elsereturn0....func

7、XX=if(output=B-NPandfeature="U01:NN")return1 elsereturn0funcXY=if(output=Oandfeature="U01:NN")return1 elsereturn0...一个模型生成的特征函数的个数总数为L*N，其中L是输出的类别数，N是根据给定的template扩展出的uniquestring的数目。第二种类型Bigramtemplate:第一个字符是B这个模板用于描述bigramfeatures。使用这个模板，系统将自动产生当前输出tok

8、en与前一个输出token(bigram)的组合。产生的可区分的特征的总数是L*L*N，其中L是输出类别数，N是这个模板产生的uniquefeatures数。当类别数很大的时候，这种类型会产生许多可区分的特征，这将会导致训练和测试的效率都很低下。使用标识符区分相对位置l如果用户需要区分token的相对位置时，可以使用标识符。比如在下面的例子中，宏"%x[-2,1]"和"%x[1,1]"都代表“DT”，但是它们又是

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 11



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

CRF工具包使用简介

CRF工具包使用简介

相关文章

相关标签