关于汉字的知识:中文信息处理

10:00:00

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。
中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

基于历史、国家疆域、政治等各种问题,中文信息处理系统所需要处理的文字,有时不仅包括简体汉字、繁体汉字,也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字,周边国家的日语假名、谚文,还包括古汉语文字、西夏文、契丹文等各种不同的文字。

过去,由于打字机键盘在设计时本身没有考虑汉字输入的问题,输入汉字往往比输入拼音文字困难。汉字没有经过中文打字机的普及,直接进入了电脑中文信息处理阶段。在电脑发明初期曾引起汉字能否适应电脑时代的问题,支持汉字拉丁化的学者甚至以此为理据。

随着各种中文输入法的出现,汉字的计算机输入、存储、输出技术得到了基本解决,大大提高了中文写作、出版、信息检索等的效率。目前中文输入法有上千种之多,主要包括表音输入和表形输入两类,也有两者兼之的。汉字的语音输入、手写识别和光学字符识别(OCR)技术也已得到广泛应用。

如收录数千字的(中国大陆)、Big5及CNS11643(台湾)、HKSCS(香港)、JIS(日本),以及收录两万多字的GBK(中国大陆)、国际标准Unicode、ISO10646等等。在这个过程中,因为技术及其他种种因素,在收录字数,及收录字体等方面或做不同层次的调整。例如台湾的民间机构资策会推出字码标准时,为方便电脑处理汉字,以“统一异体字”的名义采纳了多个字型比较简化的日体汉字,如:“衞”->“卫”。

中国政府为了解决邮政,户籍整理等领域用字的迫切需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB18030-2000,共收汉字27484个。并强制所有在中国售卖的计算机产品必须支持这个新的国家标准。

You Might Also Like

0 评论

访客统计



Like us on Facebook

本站声明

本站大半内容皆采集自网络,本站将竭尽所能确保所提供的资讯准确无误。尽管如此,本站所提供的有关资讯不作任何承担或陈情。若本站发布的内容侵犯了您的权益,请联系本站以取下相关信息。