北京语料库检索使用说明

北京语料库检索使用说明

ID:16437748

大小:51.50 KB

页数:9页

时间:2018-08-09

北京语料库检索使用说明_第1页
北京语料库检索使用说明_第2页
北京语料库检索使用说明_第3页
北京语料库检索使用说明_第4页
北京语料库检索使用说明_第5页
资源描述:

《北京语料库检索使用说明》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、北京语料库检索使用说明首 页一关于CCL语料库及其检索系统二关于查询表达式2.1特殊符号2.2基本项2.3简单项2.4复杂项2.5过滤项2.6子句2.7查询表达式三关于查询结果四在结果中查找五举例 一关于CCL语料库及其检索系统1.1CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。1.2本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。1.3语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看

2、。比如:  “作者列表”:列出语料库中所包含的文件的作者  “篇名列表”:列出语料库中所包含的篇目名  “类型列表”:列出语料库中文章的分类信息  “路径列表”:列出语料库中各文件在计算机中存放的目录  “模式列表”:列出语料库中可以查询的模式1.4语料库中的中文文本未经分词处理。1.5检索系统以汉字为基本单位。1.6主要功能特色:·支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等);·支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句);·支持在“结果集”中继续检索;·用户可定制

3、查询结果的显示方式(如左右长度,排序等);·用户可从网页上下载查询结果(text文件);二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。2.1特殊符号查询表达式中可以使用的特殊符号包括7个:

4、    $     #    +   -    ~   ! 这些符号分为三组:Operator1:

5、Operator2:$      #    +     -    ~  Operaotr3:! 符号的含义如下:(一)Operator1: Operator1是二元操作符,它的两边可以出现“基本

6、项”(关于“基本项”的定义见2.2)(1) 

7、  相当于逻辑中的“或”关系。(二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3)(2) $  表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number(3) #  表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number(4) +  表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一

8、句中。两个“简单项”之间相隔字数刚好等于Number(5) -  表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。(6) ~  表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。(三)Operator3:Operator3是一元操作符。(7) !  表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。注意:Operator2后面的Number是必须的

9、,不能省略。Number=0表示相邻,Number=1表示间隔1个单位,其余依此类推。2.2基本项指不包含特殊符号和空格的连续字符串2.3简单项简单项可以由以下三种形式的序列组成(1) 基本项(2) 基本项1Operator1基本项2Operator1...(3)(基本项1Operator1基本项2Operator1...)注意:在实际表达式中,Operator1前后不能有空格2.4复杂项复杂项可以由以下三种形式的序列组成(1) 简单项(2) 简单项1Operator2Number简单项2 (3) 简单项

10、1Operator2NumberOperator3简单项2其中第二种形式,等价于  Operator3简单项1Operator2Number简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。注意:Number为0和正整数。Operator2,Operator3前后均不能有空格2.5过滤项过滤项可以包含以下表达式:(1)author:简单项(2)name:简单项(3)path:简单项(4)type:简单项(5)pattern:简单项(“author:简单项”的含义是指“author:

11、”后面跟的表达式是上面2.3“简单项”所定义的字符串,其余类推)注意:通过指定过滤项中author(作者),name(篇名),path(文件路径),type(文章类型),用户可以缩小查询语料的范围。其中过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。比如:想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;想查询唐代语料,在查询表达式中输入

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。