java中文分词代码.doc

java中文分词代码.doc

ID:56825819

大小:31.00 KB

页数:7页

时间:2020-07-15

java中文分词代码.doc_第1页
java中文分词代码.doc_第2页
java中文分词代码.doc_第3页
java中文分词代码.doc_第4页
java中文分词代码.doc_第5页
资源描述:

《java中文分词代码.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、/* *createdbyyzh2004.5.12 *请大家引用时保留这段作者声明,此代码为开源代码;使用不受限制,欢迎大家采用本人所写JS动态拖动表格实现代码。 *中文分词代码 *此代码为作者多年经验总结,以前发表过VB,PB版本*/importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.util.Locale;importjava.util.TreeMap;importjava.util.TreeSe

2、t;publicclassChineseSegmenter{  privatestaticChineseSegmentersegmenter=null;  //privateHashtablezhwords;  privateTreeMapzhwords;  privateTreeSetcforeign,cnumbers;  //Charform  publicfinalstaticintTRAD=0;  publicfinalstaticintSIMP=1;  publicfinalstaticintBOTH=2;  //CharformisTRAD,SIMPorBOTH  privateC

3、hineseSegmenter(intcharform,booleanloadwordfile){          cforeign=newTreeSet();     cnumbers=newTreeSet();     if(charform==SIMP){        loadset(cnumbers,"data/snumbers_u8.txt");        loadset(cforeign,"data/sforeign_u8.txt");     }elseif(charform==TRAD){        loadset(cnumbers,"data/tnumbers_u

4、8.txt");        loadset(cforeign,"data/tforeign_u8.txt");     }else{//BOTH        loadset(cnumbers,"data/snumbers_u8.txt");        loadset(cforeign,"data/sforeign_u8.txt");        loadset(cnumbers,"data/tnumbers_u8.txt");        loadset(cforeign,"data/tforeign_u8.txt");     }     //zhwords=newHashta

5、ble();     zhwords=newTreeMap();     if(!loadwordfile){        return;     }     Stringnewword=null;     try{        InputStreamworddata=null;        if(charform==SIMP){           worddata=getClass().getResourceAsStream("simplexu8.txt");        }elseif(charform==TRAD){           worddata=getClass().

6、getResourceAsStream("tradlexu8.txt");        }elseif(charform==BOTH){           worddata=getClass().getResourceAsStream("bothlexu8.txt");        }        BufferedReaderin=newBufferedReader(newInputStreamReader(              worddata,"UTF8"));        while((newword=in.readLine())!=null){           if

7、((newword.indexOf("#")==-1)&&(newword.length()<5)){              zhwords.put(newword.intern(),"1");              if(newword.length()==3){                 if(zhwords.containsKey(newword.substring(0,2) 

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。