柳建钰|什么是字料库汉字学
第三章 字料库汉字学概说
文 | 柳建钰
字料库汉字学,一门崭新的边缘性交叉学科,即将伴随着汉字字料库理论的提出与发展以及各种类型字料库实体的建构成长起来。一般来说,一门新学科的建立,至少应该满足以下三方面的要求:有明确的研究对象与范围;有学科的代表人物和高水平的学术专著;有规范化、系统化、科学化的研究方法。根据以上标准和学界已有成果综合考量,我们认为,字料库汉字学目前已经起步,尚处于成长阶段。从李国英师、周晓文(2009)首次提出“字料库”的概念并明确定义至今,已经有二十多篇与汉字字料库和字料库汉字学直接相关的理论研究成果问世,一些科研单位和学者也早就开始进行汉字字料库(或“类字料库”)建构的实践探索,但字料库汉字学直接关涉到的很多基本问题,比如字料库汉字学的学科定义、学科性质、建立背景及条件、学理依据、学科地位、与相关学科的关系、研究的理论及现实意义、概念系统、内部分类、研究对象与主要研究内容、研究原则与方法、研究步骤、重点和难点、可能遇到的瓶颈问题、发展趋势、字料库汉字学的应用以及与汉字字料库实体建构相关的一系列问题,仍然缺乏系统深入地研究。
本章拟先对字料库汉字学的学科定义、研究领域、学科性质、主要研究内容、研究方法、研究步骤、学科地位等几个关键问题进行初步探讨,以便为后续的深入研究打下基础,并藉以引起更多学者对字料库汉字学的高度重视,推动这一新兴学科的研究向纵深发展。
#01
字料库汉字学的学科定义及研究领域
一门新学科的建立,首先需要有明确的定义。我们认为,字料库汉字学是以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于汉字教学与中文信息处理及其他相关学科进行研究的一门交叉学科。
这一定义的确立受到了梁茂成“语料库语言学四大领域论”的直接启发。自20世纪60年代崭露头角以来,语料库语言学已经给当代语言学研究带来了翻天覆地的变化。一般认为,语料库语言学的研究范式分为两种:“基于语料库”的研究、“语料库驱动”的研究。[2]梁茂成从多个角度对这两种范式进行了离析,并创造性地将语料库语言学所涉及的领域划分为四个:“语料库驱动”的语言学研究(处于核心圈)、“基于语料库”的语言学研究(处于核心圈外围)、将语料库应用于语言教学的应用语料库语言学研究(处于第三圈)以及语料库在语言学外围学科中的应用研究(处于最外层)。[3]这种分法,对于字料库汉字学无疑具有非常重要的理论指导意义。我们尝试借鉴梁茂成的分法,也将字料库汉字学的研究领域概括为四个部分:
处于核心圈的是“字料库驱动”的汉字学研究。这类研究对字料库的依赖程度最高,它以字料库作为出发点和唯一的观察对象,以新理念和新方法对与汉字直接或间接相关的各类现象进行界定和描述,用来揭示汉字创制、发展和演变的深层次规律,并试图提出全新的汉字学理论观点。其核心工作是汉字构形属性及构形关系的描写。由于它排斥任何理论预设,所以字料库中的字料只能以元数据形态存在,除来源、形态等客观属性外,其他属性均不能按照已有的汉字学理论进行标注。
处于核心圈之外的是“基于字料库”的汉字学研究。它主要是利用字料库对已有的汉字学理论或假设进行再探索,目的在于验证或修正已有的汉字学理论。在此过程中,字料库被视为一种可靠而非唯一的研究资源和工具。由于它不排斥其他理论预设,所以字料的各种属性需要预先根据已有的汉字学理论进行尽可能科学详实的标注。
处于第三圈的是应用字料库汉字学研究。理论的价值只有通过实践才能体现出来。汉字教学和中文信息处理是当前汉字学最重要的两个应用领域。应用字料库汉字学研究主要是把字料库及字料库汉字学理论与各层次、各类型的汉字教学结合起来,与当前中文信息处理的迫切需求结合起来,利用字料库汉字学理论和字料库所提供的字料来解决汉字教学和中文信息处理过程中遇到的各种实际问题,提高教学和信息处理的效率。
处于最外层的是字料库在其他学科领域中的应用研究,比如训诂学、音韵学、词汇学、辞书学、书法学、古籍整理、字体设计等等。这类跨学科研究完全不排斥已有理论的指导,而且字料库所提供的字料也只被视为一种辅助性资源,学者可以从字料库中提取研究所需要的各种字料资源,以便加快研究进度,提高研究效度。
字料库汉字学是以字料库中的字料为基础开展研究的一门学科,以上四个层次的研究,前两者属于理论研究,后两者属于应用研究。无论是理论研究还是应用研究,都必须秉承“用数据说话”的研究理念,都要依托汉字字料库这一便捷高效的平台,以真实文本中出现的字料为界定和描述汉字现象的起点。不过,从内到外每个层次对于字料和字料库的依赖程度依次递减,对于已有汉字学理论的依赖程度依次递增。
按照这种“四大领域论”的分法,字料库汉字学的研究领域能被较好地整合起来。这样做,既可以凸显字料库汉字学研究对象的地位,又可以调解“字料库驱动”与“基于字料库”两种研究范式之间的矛盾,还能拓宽字料库汉字学的研究范围和应用领域,对于推动尚处于成长状态的字料库汉字学健康快速发展具有重要的作用。
#02
字料库汉字学的学科性质
1、字料库汉字学具有
社会科学和自然科学双重属性
一门学科的性质主要是根据其研究对象来确定的。字料库汉字学以“字料库中的字料”为基本研究对象,因此,这门新学科必然兼有社会科学和自然科学双重性质。
之所以说这门学科具有社会科学的性质,主要因为真实文本中的汉字字料是字料库汉字学研究的基本对象。众所周知,作为整个社会文化体系的有机组成部分,文字是人类社会发展到一定阶段的产物,是一种依存于社会的文化现象,具有鲜明的社会属性。文字会随着社会的发展而产生相应的变化。王凤阳认为,“文字的发展变化受社会诸因素的制约,尤其是受社会关于书面记录和交际的需求量和文字承载量的制约,这是文字发展的一个普遍的规律。”[4]汉字是一种典型的文字形态,自然也必须把社会属性作为其根本属性。以汉字字料作为研究对象的字料库汉字学也必然具有社会科学属性。
之所以说这门学科具有自然科学的性质,主要是因为其研究对象来源于“字料库”。从本质上来说,汉字字料库是一种依靠计算机手段建设而成的数据库,其建设过程可以划分为规划阶段、需求分析阶段、设计阶段、实现阶段、字料采集阶段、字料标注阶段、使用及维护阶段等七个阶段。这其中每一阶段的工作都与计算机数据库和软件开发技术直接相关。此外,字料检索、对比、统计、筛选、导入、导出等主要功能的研制开发除了需要汉字学知识外,还需要借助软件编程技术才能完成。字料库的建设要以符合规范化、自动化、网络化、智能化及多功能化要求为终极目标。这一目标的实现,离开计算机数据库和软件开发技术,是根本无法想象的。因此,字料库汉字学又具有显著的自然科学属性。
在汉字字料库中,字料居于绝对核心的位置,是字料库汉字学研究最重要的内容,数据库只是字料的载体,因此,相比于自然科学属性,社会科学属性应该是字料库汉字学的主要属性。
2、字料库汉字学具有
理论科学和应用科学双重属性
一门学科的性质还可以从它侧重于理论研究还是应用研究这个维度来确定。字料库汉字学既重视理论的总结概括,又重视理论在实践中的应用,它具有理论科学和应用科学双重属性。
字料库汉字学的研究领域主要分为两大类,一类是理论性很强的“字料库驱动”及“基于字料库”的汉字学研究,它对汉字字料库本体、字料库汉字学以及汉字学理论进行充分、深入地跨学科研究,重在通过字料库中提供的大规模字料来揭示汉字的本质,探索汉字发展演变的基本规律;另一类是在汉字教学和中文信息处理领域的应用字料库汉字学研究以及跨学科中的字料库应用研究。它要对汉字字料库及字料库汉字学在诸多应用领域中遇到的具体问题进行分析研究,创造性地解决这些问题,具有很强的目的性和可操作性。“字料库驱动”及“基于字料库”的汉字学研究可以为字料库汉字学的应用研究提供理论指导,而字料库汉字学的应用研究不仅能为理论的运用开辟广阔的领域,还能促进理论的进一步丰富和完善。这两类研究领域共同支撑起了字料库汉字学的大厦,二者应该良性互动,协调发展。
总而言之,字料库汉字学需要同时使用汉字学和信息科学两方面的知识与技术,是一门特色鲜明的具有综合属性的交叉学科,它既具有社会科学属性,也具有自然科学属性,而社会科学属性是其主要属性。字料库汉字学又具备理论科学和应用科学双重属性,在具体研究过程中,这两种属性应该同样得到重视,否则会使字料库汉字学的研究缺乏后劲,不利于字料库汉字学各研究领域的均衡、充分发展。
#03
字料库汉字学研究的主要内容
任何学科都是因为要解决某些专门的重要问题而产生的,所以说,要创建一门新的学科,首先必须有足够多的值得独立考察研究的新问题。这些问题,构成了新学科研究的主要内容。作为一门独立学科的字料库汉字学,其研究内容主要是在汉字学及相关领域中与研发和应用字料库直接或间接相关的各种理论和实践问题。具体来说,包括但不限于如下三方面主要内容:字料库本体研究及实体建构、基于字料库的汉字属性与汉字整理研究、字料库汉字学应用研究。下面分述之。
1、字料库本体研究及实体建构
这是字料库汉字学研究的基础性内容。对字料库本身研究不系统、不透彻,没有大量具有一定规模的类型丰富的字料库作为基础,字料库汉字学的研究就是无源之水,无本之木。因此,字料库本体研究及实体建构应该被摆在整个研究的首要位置,而且二者应该互相促进,不可偏废。它主要考虑以下五个方面的问题:
(1)字料库的设计和开发:主要考虑字料库的建设目的、主要功能、具体类型、建设规模、开发工作所需资源、开发成本、开发进度、质量监控、可扩展性等等。
(2)字料的采集:主要考虑文本版本信息、元数据采集、样本采集、字料获取方式、图文数据格式、字符集编码设定、字料分类及选取原则、各类入库字料的代表性等等。
(3)字料的标注:包括字料属性库的建设、标注原则、标注方案、标注内容(包括公用信息、基本属性信息、汉字构形信息、字际关系信息等等)、标注规范、标注方式、标注深度、标注质量检验等等。
(4)字料库系统的建设:包括数据加工与维护(字料切图、识别、校对、存储形式、索引、系联、导入导出、修改、删除、备份与恢复等)、字料自动加工(属性自动标注、标注质量的检验)、用户功能(检索、筛选、统计、对比、打印、权限管理等)、基于网络的字料库管理与应用平台。
(5)自动、辅助软件开发:研究和开发处理字料的算法和自动、半自动软件工具,用以解决字料库建设及字料库汉字学研究各领域中的问题。比如批量切图、字料的计算机图形描述、字料自动批量比对、机器自动标注、标注结果图形化展示、不同类型字料库的对接等等。
以上五方面的内容,目前都还缺乏非常深入系统的研究。字料库是从语料库类推出来的一个概念。语料库的发展势头可以说相当迅猛,有学者把研究者在“前电子时代”经手工采集的语料集合称为“语料库1.0”,并认为语料库现在已经发展到了4.0——多模态语料库。[5]语料库的发展过程积累了非常宝贵的经验,值得字料库开发研究去借鉴。与此同时,因为语言和文字是两种不同的符号系统,字料库与语料库在建设目标、所能提供的功能以及数据的存储、管理模式等方面均不相同,[6]所以,必须考虑字料库建设与研究的特殊性,简单套用语料库实体建构的模式,一定会产生水土不服的现象。
2、基于字料库的汉字属性与汉字整理研究
这是字料库汉字学研究的主要内容。其范围包括但不限于以下九个方面:
(1)汉字字样属性描写与研究。[7]字样是指在同一种形制下,记录同一个词,构形构意相同、写法也相同的字。它是汉字认同别异的基础单位。[8]汉字字样属性包括书写单位(线条或笔画)、书写方法、书写风格、字体类型、字形变体等等。在字料库所提供的大量真实字料基础上,我们可以对汉字书写单位、书写方法及字体类型的历史变迁进行细致地描写和充分地解释,也可以对各阶段汉字字样的书写风格进行横向和纵向的比较研究,还可以对字样的书写规律和变异规律进行实证性研究。
(2)汉字构形属性描写与研究。字形是汉字的本体,汉字构形属性的描写与研究是汉字学的核心内容。利用数据库技术,将不同时代、不同地域、不同载体、不同使用范围的汉字字形予以类聚,设置各种属性字段,建设可以满足汉字构形属性描写与研究的字料库。通过分析单字的构形单位、构件类别、构形理据、组合模式等构形属性信息,从无限多的千姿百态的具体汉字字料中归纳出汉字构形应该遵循的普遍规律,进而揭示汉字构形系统的基本特征,并可藉此验证历代主要构形模式学说的科学程度,进一步发展和完善汉字构形学理论体系。
汉字形体演变简表,载王宁主编《古代汉语》
(3)汉字构形系统对比研究。汉字构形系统是一个不断发展变化着的动态系统,仅对其作宏观、静态的观察分析,难以对汉字构形系统反映出的各种复杂现象做出科学合理的解释。依据汉字字料库,在对各历史时期不同书体的汉字构形系统进行调查描写的基础上,弄清楚汉字构形系统从古到今发展演变的基本面貌,并开展古今汉字构形系统内部及各系统之间的比较研究,探究汉字构形系统演变的主要规律和发展趋势,是字料库汉字学研究的主要课题之一。
(4)汉字书写属性研究。汉字书写属性包括运笔和结体两大方面,其内部又包括笔数、笔形、笔顺、平面图式等小类。字是写出来的,书写会对汉字形体结构产生直接的影响。“汉字书写者对于字形简便、有别和美观的追求及书写时有意无意的‘变异’,都是导致汉字形体变化的重要因素,而汉字形体变化往往又导致汉字结构模式的改变。”[9]因此,对汉字书写属性的描写,无疑具有重要的研究价值。字料库能够提供规模化、系统化的真实文本中出现的字料,这些字料是研究汉字书写属性的可靠材料,可以用来描写和解释不同书写者所写下的字料的个体差异和总体特征,能够让基于字料库对书写风格的描写和解释更加客观和深入。
(5)汉字字用属性研究。汉字字用属性包括字义信息(本义/引申义/假借义)、字音信息(古音、今音、正音、又音等)、字频信息以及字词及字际关系信息。通过字料库中的汉字音义信息处理平台,系统整理汉字音义信息,梳理汉字音义发展演变的基本脉络和规律,可以不断丰富与发展汉字音义理论。另外,通过调查统计各历史时期汉字使用的频度,区分出汉字的通用等级,描写汉字使用频度在不同历史时期、不同应用领域的变化情况,找出其变化的主要特征和内在规律,可以为当前的汉字字频研究和汉字规范研究提供参考资料。对字词及字际关系信息的调查描写,建设汉字字词、字际关系巨系统,对于疑难字词的考释、全汉字的整理研究、字典辞书的编撰修订以及古文献的训释工作都具有重要意义。
(6)全汉字整理与统计研究。汉字整理与规范是保护汉字资源的一种重要手段。彻底整理从古到今记录汉语语词所创造的、所书写的汉字形体资料,按照字形单位原则和构造功能原则,[10]统计各种书体(载体)系统所包含的字样、字位及字种数量,考辨疑难俗字,总结汉字构形和书写变异规律,沟通字际关系,归纳整理异写字、异构字,确定字位主形及字种正字,优选出传统汉字的规范形体,最终完成历时汉字字料“树结构”的建构工作。
(7)语篇汉字与字书汉字比较研究。汉字字料库中采录的字料根据其原始存现环境可以分为语篇文字和字书文字两种,它们分别来源于使用领域和贮存领域,都是全汉字整理不可或缺的重要资源。两者之间既密切关联,又各有特点,其异同之处的描写和归纳工作需要借助大规模字料库才能更好地完成。
(8)字书汉字断代研究。依托字书字料库开展有关字书所贮存历史汉字的时间层次的调查研究,把字书所收汉字形体的来龙去脉考察清楚,考察这些字在历代字书中层积和流变的真实状况,离析出转收字、新收字、形体变异字,确定它们在整个汉字系统中所处的位置,以便全面认识各历史时期汉字的基本面貌,为历时汉字的系统整理、当今汉字的科学规范、大型字辞书的编修完善等提供一手材料。
西夏文佛经《吉祥遍至口和本续》(局部)
(9)中外汉字比较研究。调查汉字文化圈内朝鲜、韩国、日本、越南等国家汉字的创制、使用及流变情况,比较几种汉字在造字、书写演变方面的异同,梳理汉字向汉字文化圈内其他国家传播、渗透和发展演变的基本脉络,进而探究民族文化与心理因素在汉字创制使用过程中所发挥的重要的内化作用。另外,历史上汉字也对国内其他少数民族文字的创制产生过重要影响,比如古彝文、古壮字、西夏文、契丹文、女真文、水书、女书等等,都是直接或间接受汉字影响而创制的。[11]通过建设汉字字料库和我国少数民族或其他国家表意文字字料库,开展基于字料库的比较文字学研究,对于汉字传播史以及表意文字之间的比较研究都具有重要的价值。
3、字料库汉字学应用研究
字料库汉字学是一门实践性、应用性很强的学科,脱离了应用,就理论而谈理论,会使它失去进一步发展的基础和动力。可以说,应用研究是字料库汉字学研究内容中最接地气的部分。它大致包括以下五种:
(1)各层次汉字教学研究。字料库及字料库理论可以应用于包括义务教育阶段汉字教学、高中及大学阶段汉字教学、对外汉字教学、书法教学等在内的汉字教学实践,从而有效促进汉字理论研究与汉字教学实践良性互动,在提高汉字教学整体水平与质量的同时,促进应用字料库汉字学理论的进一步发展。这方面已经有学者进行了卓有成效的尝试。比如北京语言大学建设的“外国学生错字别字数据库”已经在促进汉字理论研究与汉字教学实践良性互动、提高对外汉字教学水平与质量方面发挥了重要作用。[12]
(2)全汉字UNICODE编码研究。UNICODE是一种国际标准编码,能够实现跨语种、跨平台的应用,目前最新的13.0版收录的汉字达九万多个,但仍然有很多真实文本中出现过的缺字亟待补充。通过从字料库中提取、整理并向国际标准化组织提交未收录字形资料,与相关国家及组织通力协作,可以分批次完成全汉字的UNICODE编码工作。于2011年启动的“中华字库”工程是一种超大型的字料库工程。它以文字学深入研究为基础,拟将真实文本中所有出现过的汉字形体和少数民族文字形体汇聚起来,并制作满足各种应用需求的字体字符库。这一工程无疑会在全汉字UNICODE编码研究过程中发挥非常重要的作用。
(3)字典编纂研究。以往字典的编纂,无论是字头的设立、字形的优选,还是音义的归纳、书证例证的选取,基本上都要靠人工完成,诸如字头漏收重收、字形转写错误、音义漏收或误置、书证例证缺失或时间靠后等问题,在这种条件下是无法避免的。利用字料库提供的海量资源,很多工作可以交由计算机完成,后期予以人工干预即可,可以有效提高字典编纂的效率,大幅度提升字典的品质。字料库将成为未来字典编纂最基本、最可靠的资源。
文悦科技开发字体
(4)字体设计与制作。当前计算机字体种类繁多,包括宋体、楷体、仿宋体、黑体等等,整体看来规范程度较高,但字形风格比较死板。一些组织和个人开始依据古籍字形设计制作中文复刻字体。比如国内方正电子开发的方正清刻本悦宋体、方正金陵体、方正萤雪体以及文悦科技开发的康熙字典体、文悦古体仿宋、仪凤写经体、隶辨隶书体、古典明朝体等,日本“欣喜堂”也设计了包括麻沙体、志安体、嘉兴体、毛晋体、聚珍体等在内的24套高质量古籍字体,[13]这些字体设计与制作的基础是需要有大批量、成系统的古籍手写或印刷字形,而字料库正好能够提供这种基础性资源,如果能够很好地利用这些汉字字料图片,无疑会拓宽字体设计和制作的选材范围,提高字体设计制作的速度和效率,满足艺术设计的迫切需求,而且还能缩短在古籍艺术字形设计和制作领域国内与国外的差距。
其他比如字料库汉字学与语料库语言学对比研究、古今社会用字规范及现代用字标准制订研究、汉字字形发展史研究、古籍文献数字化处理及校勘整理研究等等,都是字料库汉字学能够直接关涉到的研究内容。可以说,字料库汉字学的研究拥有一片十分广阔的天地。
需要特别强调的是,字料库汉字学建立在字料库所提供的大量真实字料基础上,无论是字料库本体研究及实体建构,还是基于字料库的汉字属性与汉字整理研究,或者字料库汉字学应用研究,都离不开对字料的充分考察与描写。不过,“从科学研究的角度说,无论哪个学科,对事实的考察和挖掘固然重要,但它毕竟只是研究的基础,还未达到真正意义上的科学研究。真正意义上的科学研究,必须对考察、挖掘所得的事实及其观察到的内在规律做出科学的解释,并进一步从中总结出具有解释力的原则,升华为理论,能用这些原则、理论来解释更多的事实,从而使学科得以自立,得以发展。”[14]所以,我们必须对考察、描写所得的字料事实及其规律做出科学的解释,并进一步从中总结出具有普遍解释力的原则,升华为汉字学理论,能用这些原则和理论来解释更复杂多样的汉字现象,更好地指导当前及未来的汉字整理与汉字学及相关学科的研究工作,这才是真正意义上有价值的字料库汉字学研究。
本文节选自柳建钰《字书字料库的理论、实践与应用》,中华书局,2021年,页67到页81
向上滑动查看注释
[1]作为阶段性成果,本章主要内容曾以《字料库汉字学初探》为题发表在《语言文字应用》2017年第2期上。此处又做了一些修改和完善。关于这门新学科的名称,学界又有“数据库汉字学”(王平2013)、“数据库文字学”(刘志基2019)的说法。我们认为,学科名称应该要能准确概括该学科的主要内容。数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库的总称,字料库只是其中的比较特殊的一种。而且我们所要研究的是汉字,而非古今中外所有种类的文字。因此,就本书所要研究的内容来看,“字料库汉字学”这一名称是名副其实的。
[2]前一种范式似乎可以称之为“语料库语言”学,而后一种范式则可以称之为“语料库”语言学。
[3]梁茂成.语料库语言学研究的两种范式:渊源、分歧及前景[J].外语教学与研究,2012(3);梁茂成.语料库、平义原则和美国法律中的诉讼证据[J].语料库语言学,2014(1):25-26.
[4]王凤阳.汉字学[M]:长春:吉林文史出版社,1989:24.
[5]黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015(3):1.
[6]李国英,周晓文.字料库建设的必要性与可行性[J].北京师范大学学报(社会科学版),2009(5):50-51.
[7]李运富认为汉字具有形体、结构、职用三个方面的本体属性。对汉字的研究可以从外部形态(字样)、内部结构(字构)和记录职能(字用)三个平面入手。详见:李运富.“汉字学三平面理论”申论[J].北京师范大学学报(社会科学版),2016(3):52-62.
[8]王宁.汉字构形学导论[M].北京:商务印书馆,2015:150-151.
[9]张素凤.谈书写对古汉字结构的影响[J].兰州学刊,2013(9):180.
[10]李运富.汉字汉语论稿[M].北京:学苑出版社,2008:65-69.
[11]陆锡兴.汉字传播史[M].北京:语文出版社,2002:前言.
[12]北京语言大学“外国学生错字别字数据库”课题组.“外国学生错字别字数据库”的建立与基于数据库的汉字教学研究[J].语言教学与研究,2006(4):1-7.
[13]日本欣喜堂汉字书体二十四史,http://www.kinkido.net/Chinese/Chinese.html.
[14]陆俭明.汉语语法研究中理论方法的更新与发展[J].汉语学习,2010(1):3-10.
字书字料库的理论、实践与应用
滑动查看书影
摘 要
当前利用计算机技术来整理和研究汉字的工作整体上比较薄弱,远远落后汉字整理规范工作的客观要求,因此必须借助汉字字料库,并在此基础上建立字料库汉字学,用来指导汉字整理研究的实践工作。本书对与字书字料库相关的一些理论问题进行了探讨,并对字书字料库实体建设及实践应用方面的一些问题进行了研究。全书共分三编。上编为字书字料库理论篇,中编为字书字料库实践篇,下编为字书字料库应用篇。
字书字料库是与语篇字料库相对应的字料库两大类型之一,它是在大规模历代字书文本基础上生成的真实的汉字刻写形态的有序集合,是利用计算机对字书汉字形体进行各种分类、统计、检索、综合和比较等研究的基础,它能为汉字学及其他相关学科研究提供高度结构化的字书汉字数据信息。字料库与语料库之间既有联系,又相互独立,不能等同视之。字料库可以从不同角度划分出不同的类型,不同类型的字料库均有自己独特的价值。字书字料库建设是当前汉字整理研究工作的迫切需要,是推动汉字学研究信息化的内在要求,也是与语料库语言学并驾齐驱的必然选择。字书字料库建设在物质基础、技术支持及理论指导诸方面均具有可行性。
汉字字料库理论的形成,是在当前多学科交叉综合研究方法日益受到学界重视的历史条件下,在汉字整理研究的实践过程中,在总结历代及当前汉字整理研究的经验教训的基础上,通过借鉴语料库理论及语料库语言学成功发展的宝贵经验,逐步形成和发展起来的。也是学者对汉字整理研究工作进行长期探索与前瞻性研究的必然结果。汉字字料库理论是对科学汉字学理论体系的丰富和发展,能够有效指导当前及未来的汉字整理研究实践工作,还蕴涵着一种全新的、科学程度更高的汉字整理研究方法和思路。它不仅丰富了汉字学理论体系,是对学科交叉综合研究方法的一种新尝试,还可以用来指导当前的汉字整理研究实践,在汉字学研究方法论上也将产生重要的影响。
字料库汉字学是以真实文本中出现的汉字字料为界定和描述汉字现象的起点,通过字料的采集、存储、标注、检索和统计分析,用来提出全新的汉字学理论或验证、修正已有汉字学理论,并对字料库如何应用于汉字教学与中文信息处理及其他相关学科进行研究的一门交叉学科。其研究领域可为“字料库驱动”的汉字学研究、“基于字料库”的汉字学研究、应用字料库汉字学研究以及字料库在其他学科领域中的应用研究等。字料库汉字学具有社会科学和自然科学双重属性,又具有理论科学和应用科学双重属性。字料库汉字学研究的主要内容包括字料库本体研究及实体建构、基于字料库的汉字属性与汉字整理研究、字料库汉字学应用研究等。字料库汉字学的研究方法主要包括字料库驱动和基于字料库的研究方法、定性与定量相结合的方法、共时与历时相结合的方法、实证与内省相结合的方法、学科知识综合交叉的方法等。就研究步骤来说,“字料库驱动”的汉字学研究和“基于字料库”的汉字学研究有明显区别。
字书字料库系统建设的主要原则包括科学性、真实性、代表性、前瞻性、先进性、共享性。基本流程划分为规划、需求分析、设计、实现、字料采集、字料标注、使用及维护等7个阶段。属性库要遵循从字书实际出发、具有完整性与准确性、强调规范化等三个基本原则。
字书字料标注,就是把字书字料所具有的汉字学、字典学及其他重要信息按照既定原则一一标注出来。字书字料标注的原则包括生字料和标注内容的数据独立性原则、公开性原则、通用性原则、标准化原则、多维度原则。字书字料标注的内容主要包括基本属性信息标注、汉字构形信息标注、汉字字际关系信息标注三个方面。其中,基本属性信息标注是基础