欢迎来到天天文库
浏览记录
ID:43839289
大小:53.00 KB
页数:11页
时间:2019-10-15
《《左传》地名研究初探》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、《左传》地名研究初探摘要:本文分析了《左传》地名结构的特点,基于CRF模型,对《左传》地名进行自动识别,通过只用字符本身作为特征的分词词性一体化实验和增加部首特征等实验的对比,总结出适用于《左传》地名的自动识别方法,实验效果最好的识别正确率和召回率分别达到94.59%、94.84%o关键词:《左传》地名识别自然语言处理1、引言先秦文献信息处理属于中文信息处理技术与古典文献交叉研究的领域,而地名研究属于先秦文献信息处理的子领域。其研究的必要性在于,汉语的词与词之间没有自然的界限,使得中文信息处理大多是先对要处理的文本进行词语切分,而在分词阶段,未登录词的识别成为许多分词
2、系统发展缓慢甚而走向应用瓶颈的主要原因之一,地名在未登录词中占有一定的比例,随着先秦文献信息处理的深人发展,如果不做地名识别,会很大程度上影响分词的精度。学界已经对先秦地名的命名原则,选词用字。起名来源等方面进行了探讨,诸如:台湾中研院的《先秦金文简牍词汇资料库》,香港中文大学中国文化研究整理编撰的《先秦两汉古籍逐字索引丛刊》等,都提出了很好的研究方法和研究理论,为我们前期分析先秦文献地名结构规则的研究提供了很好依据。目前,命名实体识别技术在不断地发展,各种识别模型的应用为我们的模型选用和识别实验提供了很好的例证。2、语料考察分析本文对先秦25本主要文献进行筛选,最终
3、选择《左传》作为实验语料。原因在于:作为方法探求始初,选取的文献要具有可读性,易提取性,另外,文献需要包含较多的地名。《左传》在先秦文献中,字数最多,词汇总量最大,是记录春秋时期社会状况的重要典籍。事件、人物的描写必然和相关的地点密切联系,以上多种因素正满足了我们实验的要求。2.1《左传》地名统计与分析我们选用“汉达文库”提供的《左传》(17万字次)作为实验语料。首先对其五分之三语料人工标注了分词和词性标记信息。参照北大分词规范,并依据古代汉语的特点制定了先秦文献语料分词标注集,给出了17个标记,分别是:名词n、动词v、形容词a、数词m、量词q、代词r、介词p、连词c
4、、助词u、副词d、语气词V、人名nr、地名ns、兼词i、方位词f、时间词t、标点w等,我们总体上倾向于和,而不是分。其中,地名的标注我们遵守指称性、专门性、词汇性等命名实体特征,对文献中出现的地名做了词频统计(见表3-l)o2.2《左传》地名特点分析及用字考察基于以上统计分析,我们对《左传》地名进行了分类。按内容分,主要包括:自然地理实体:山(如:泰山)、水(如:汉水)、河(如:河)等人文地理实体:国名(如:秦国)、县名(如:温)等等按结构分,主要有以下几种形式:1、单字专名,如:毫、员Ik京2、专名+通名,如:泰山、清丘3、双字专名,如:汾隰、甘鹿另外,我们对《左传
5、》进行了字频统计,共有3300多个汉字,其中,地名用字共有827个字,频率在10以上的地名用字为27个,我们对这些频率较高的字进行了考察,并从结构、文化等方面对《左传》地名进行细致的分析,从而总结出以下几个特点:1、方位词居多。字频统计分析显示,《左传》地名中,主要的方位词及其频率是:阳33、上22、东、16、中12、南12、北、10等等。可见,大部分方位词出现的频率是很高的,因为当时人的群居及其恶劣的生活环境,人们在生产劳动时,必须要辨认方向,确定不同的地理位置。2、存在通名现象,常常省略通名我国早期地名“近取诸身,远取诸物”,所以古地名通名来历常常与其自然环境有关
6、。从我们的统计数据看出,高频字中的通名包括:丘4J4、城28、国24、陵20、泽16、ill15、泉14、州12等等,而且,地名常有通名省略的情况,例如:汉,汉水:名词。水名。汉水。长江最大支流。⑴楚子伐随。军于汉、淮之间。(桓公八年)(2)楚国方城以为城,汉水以为池,虽众,无所用之(僖公四年)3、同名异指和异名同指《左传》地名的异名同指现象主要指在文本中同一个地名的表达形式不同,或范围不一。例如:汉,汉川(1)沿汉溯江,将人郢。(文公十年)汉:水名。汉水。长江最大支流,源出陕西宁强县,人湖北省至武汉市人长江。(2)周之子孙在汉川者,楚实尽之。(定公四年)汉川:汉水。
7、此指汉水地区。同名异指现象普遍存在于文本中,大多是表行政区域的地名,主要原因可能是因为“地随移民”,即和古代迁都,扩都、移民等现象有关。例如:京(1)请京,使居之,谓之京城大叔。(隐公一年)郑国地名,在今河南荥阳县东南。(2)群王子追之,单子杀还、姑、发、弱、隧、延、定、稠,子朝奔京。(昭公二十二年)周国地名,在今河南洛阳市西南。2.3《左传》地名与现代地名比较以上关于《左传》地名特点的分析,为我们今后的地名识别工作奠定了语言学基础,现在,我们主要从地名识别角度将《左传》地名与现代地名进行比较:1、现代地名数量大,新地名不断涌现,地名标注规范较为完善
此文档下载收益归作者所有