文本挖掘模型

文本挖掘模型

ID:39899023

大小:1.03 MB

页数:20页

时间:2019-07-14

文本挖掘模型_第1页
文本挖掘模型_第2页
文本挖掘模型_第3页
文本挖掘模型_第4页
文本挖掘模型_第5页
资源描述:

《文本挖掘模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、文本挖掘模型:本特征提取文本挖掘模型结构示意图1.分词分词实例:    提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法:    最大匹配法、最大概率法分词、最短路径分词方法1.1最大匹配法    中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。正向最大匹配法算法如下图:实例:S1="计算语言学课程是三个课时",设定最大词长MaxLen=5,S2=""(1)S2=“”;S1不为空,从S1左边取出候选子串W="计算

2、语言学";(2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/”,并将W从S1中去掉,此时S1="课程是三个课时";(3)S1不为空,于是从S1左边取出候选子串W="课程是三个";(4)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程是三";(5)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程是";(6)查词表,W不在词表中,将W最右边一个字去掉,得到W="课程"(7)查词表,W在词表中,将W加入到S2中,S2=“计算语言学/课程/”,并将W从S1中去掉,此时S1="是三个课时"

3、;(8)S1不为空,于是从S1左边取出候选子串W="是三个课时";(9)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个课";(10)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三个";(11)查词表,W不在词表中,将W最右边一个字去掉,得到W="是三"(12)查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时W是单字,将W加入到S2中,S2=“计算语言学/课程/是/”,并将W从S1中去掉,此时S1="三个课时";。。。。。。。。。。。。(21)S2=“计算语言学/课程/是/三/个/课时

4、/”,此时S1=""。(22)S1为空,输出S2作为分词结果,分词过程结束。代码如下:[cpp] viewplaincopy1.#include   2.#include   3.#include   4.#include   5.#include   6.using namespace std;  7.using namespace stdext;  8.  9.class CDictionary  10.{  11.public:

5、  12.    CDictionary(); //将词典文件读入并构造为一个哈希词典  13.    ~CDictionary();  14.    int FindWord(string w); //在哈希词典中查找词  15.private:  16.    string strtmp; //读取词典的每一行  17.    string word; //保存每个词  18.    hash_map wordhash; // 用于读取词典后的哈希  19.    hash_map

6、, int >::iterator worditer; //  20.    typedef pair sipair;  21.};  22.  23.//将词典文件读入并构造为一个哈希词典  24.CDictionary::CDictionary()  25.{  26.    ifstream infile("wordlexicon"); // 打开词典  27.    if (!infile.is_open()) // 打开词典失败则退出程序  28.    {  29.        cer

7、r << "Unable to open input file: " << "wordlexicon"  30.            << " -- bailing out!" << endl;  31.        exit(-1);  32.    }  1.    while (getline(infile, strtmp, 'n')) // 读入词典的每一行并将其添加入哈希中  2.    {  3.        istringstream istr(strtmp);  4.        istr >> wo

8、rd; //读入每行第一个词  5.        wordhash.insert(sipair(word, 1)); //插入到哈希中  6.    }  7.}  8.  9.CDictionary::~CDictionary()  10.{  11.}  12.  13.//在哈希词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。