录入生僻字遇困难?不妨尝试这些办法
就在4月23日,长江日报记者对华中师范大学语言与语言教育研究中心的副部长沈威博士进行了采访,该博士针对云南丽江村民因为生僻字不能够录入进而选择改姓这一情况作出了相关解释,其表示,生僻字的录入存在着困难,而这一困难主要涉及到中文字符编码以及输入法这两个方面的因素。
具体来说,其一,不同的中文字符编码,其所涵盖的中文字符数量,存在着很大的差异;其二,不同的输入法,采用了不一样的标准以及方法,来收录中文字符,故而,不同的输入法,能够输出的生僻字数量,或多或少都会有所差别。
工作中常遇到生僻字
对于生僻字,现有的技术手段有着比较成熟的解决方案。沈威常年投身于现代汉语语法、中文信息处理等方面的研究工作。
沈威于工作的时候,也时常会碰到一些生僻字,就像云南丽江村民的那个“nia(四声)”姓,他能借助自带的“专用字符编辑程序”造出此字。于工作当中,他把生僻字划分成两种类型来予以处理。
有一种情况,那就是在字符编码当中存在着这个字,在这种时候,若要打出这个字,能够采用下面这些方法:
①有一种手写输入法,它能借助鼠标或者触摸屏,于输入法给定的手写区域内以手写方式写出那些生僻的字,最后再从中挑选出正确的候选字。
②有一种拆字输入法,比如说,能够在搜狗输入法里,输入“u”从而进入拆字模式,接着,依据生僻字的构字部件,输入拼音或者首字母,举例来说,“䶮”这个字,可以借助“u long tian”(输入内容里的“+”不用打出来)进行输出。
③符号插入办法,于Word等文本编辑软件里,能够选择“插入”,接着选“符号”,再点“其他符号”,随后在子集中挑选“CJK统一汉字”,寻觅到想要的生僻字加以插入。
④拼音指南办法。在 Word 等文档编辑软件当中,去选择“开始”,接着选择“字体”,之后选择“拼音指南”,为那些生僻字加上拼音注音,随后依据拼音进行输入。
一种情况是在字符编码里不存在该字,若要输出这个字,此时可采用如下方法:
那种通过输入生僻字的GBK码,或者手动绘制生僻字的形状,来使用自带的“专用字符编辑程序”的方法,是比较方便的。
在使用软件时,把构成生僻字的偏旁打出来,再把构成生僻字的部首打出来,之后将它们合并成一个字,最后输出图片。此方法较为简单,然而有可能造出来的字不那么美观。
采用字体设计软件,像借助输入比较生僻的生僻字的专门编码,或者凭借手动去绘制生僻字形态的方式,这种办法相对来说比较专业,能够生成可用的字体文件包,进而形成属于自己的生僻字库。
生僻字会逐渐被消灭掉吗?
于2023年8月1日正式实施的《信息技术中文编码字符集》(-2022)强制性国家标准,《信息技术中文编码字符集》总共收录汉字87887个,较上一版增加录入了1.7万余个生僻字。
沈威表示,各地何时可以执行到相应程度,这还将会是一段漫长的进程。该字符集能够覆盖我国大部分人名、地名所用到的生僻字,以及文献、科技等专业领域里的用字,然而却没办法把我国全部的汉字还有少数民族文字都涵盖进去,原因在于汉字以及少数民族文字的总量是处于未知状态下的。
沈威介绍,存在着这样一些情况,有些字,它们或许仅仅会现身于某些古籍、碑刻、方言当中,而另外一些字呢,有可能是因书写、印刷或者扫描等各类缘由所导致的变体或者错误,除此之外,还有一些字,大概是源于不同地区的历史、文化等诸多因素进而产生的差异。
沈威称,将这些字全都统一编码,不但要耗费大量的人力,物资以及财力,而且得考量编码标准的稳定性,兼容性以及可扩展性等诸多问题。所以,可以讲,-2022是一个基本上能够满足各类使用需求的相对完备的解决办法,然而并非是一个毫无瑕疵的解决办法。
通俗来讲,所谓生僻字,是指那些不常被见到的,又或者是人们并不熟悉的字。关于生僻字的未来走向,沈威讲道,生僻字的产生缘由存在着好多,其中大概包括这类情况,古代常用字其异体字,古代的口语或者还包括方言字,为了避讳或者是为了起名而专门创造出来的字等等。生僻字在现代汉语里已经不怎么常被使用, 有些呢甚至已然失传了,又或者是难以去考证。
生僻字会渐渐被消灭掉吗?沈威觉得生僻字的数量会大幅削减,因有些生僻字太过繁杂和冷僻,给日常之用以及传播带来诸多困难与麻烦,然而生僻字不应被完全取缔,因有些生僻字是中华文化的遗产,有着丰厚的历史与文化内涵,值得留存与传承。不过,生僻字最终是否消亡,还要看社会的需求与发展,特别是有关部门和机构的规范与管理。
链接:
新的国家表述收录87887个汉字
据介绍,常见字符编码有GBK、-2022等。GBK是最早的中国国家标准,它收录了6763个常用汉字,它还收录了682个其他字符。
GBK是在某种基础上进行扩展的,它收纳了21886个汉字以及图形符号,其中涵盖了和BIG5里的全部汉字,还有CJK以及少数民族文字。
它属于最新的国家标准,其收录了702,488个汉字以及字符,这其中涵盖了GBK里的全部字符,还包含繁体汉字跟日韩汉字,以及CJK扩展A、扩B、扩C、扩D、扩E的汉字。
在2022收录的情况里是这样,有着87887个汉字被收纳其中,相较于之前而言,增加了1.7万余个生僻汉字,这些汉字覆盖面范围很广,覆盖了《通用规范汉字表》,还覆盖了绝大部分在人名、地名、文献、科技等领域所使用的字。
沈威称,存在一种国际标准,该标准尝试给世界上全部的文字以及符号赋予一个独一无二的编号,存在多种编码方案,像UTF - 8、UTF - 16、UTF - 32这类,虽说强制性国家标准 - 2022涵盖的中文字符多达87887字,然而依旧有一些中文字符不在其编码范围里,这致使一些生僻字的录入出现困难。
长江日报记者杨佳峰

