ebooksgratis.com

See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
中文信息处理 - Wikipedia

中文信息处理

维基百科,自由的百科全书

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学语言学数学信息学声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。

中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

基於歷史、國家疆域、政治等各種問題,中文信息处理系統所需要處理的文字,有時不仅包括简体汉字繁体汉字,也包括藏文蒙文壮文维吾尔文等大量少数民族的文字,周邊國家的日本假名諺文,还包括古汉语文字、西夏文契丹文等各種不同的文字。

中文信息處理可以從硬體及軟體兩方面去看,以下詳述中文信息處理的發展歷史、現況及未來發展等多方面的面貌。

目录

[编辑] 範疇

  • 基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库
  • 输入技术:中文输入法、中文手写输入、中文语音输入、文字识别等
  • 输出技术:汉字字模技术(字型库)、汉字激光照排、汉语语音合成等
  • 存储技术:汉字库标准等
  • 转换技术:繁简转换等
  • 信息处理:中文情报检索、中文文本校对、机器翻译自然语言理解、中文人机界面

[编辑] 相关学科

语言文字学、计算机科学模式识别人工智能心理学数学数理统计控制论、神经计算、模型论信息学、形式化理论、声学

[编辑] 發展歷史

電腦在1946年由IBM發明,當時的電腦主要用於計算。及至1960年代,商用電腦開始普及,電腦被用於處理大規模的數據,當中其一個重要項目是圖書館的目錄整理。在當時,美國國會圖書館及多家大學都有不少來自東亞的藏書。為了有效管理這批藏書,必須要有一套有效處理東亞文字的系統。這套系統包括了兩方面:其一是如何把東亞文字儲存在電腦內;其二是如何在電腦表示出東亞文字。

在過去,每一台電腦都有各自的數據表達方式,使電腦之間不能溝通。及至1960年代美國信息交換標準碼(ASCII)的出現,電腦之間才可以互相溝通。不過,ASCII並不能有效處理英文以外的文字。

而IBM也斥資了六千萬、歷時十年, 研究電腦處理中文字的方法, 結論是電腦不能處理中文。而當時美國的圖書館開始電腦化, 一批中文書有待編入目錄。

在台灣, 中文電腦之父朱邦復在1976年發明了一套形意檢字法, 到了1978年改進為倉頡輸入法, 1980年台灣開始了中文電腦, 由宏碁公司出產。之後國喬、倚天、仲鼎等中文電腦系統相繼出現。
在大陸, 在1974年8月開始了748工程, 包括了用計算機來處理中文字, 展開了各種研究工作, 後來到1980年公佈了GB2312-80漢字編碼的國家標準, 1983年中國科學院研究Unix中文化, 1985年推出了Unix中文版。

中文信息处理至今经历了两次高潮:1980年代中期到1990年代中期之前,核心内容是汉字的计算机处理问题;经过几年的发展低潮之后,1990年代末,中文信息处理的重点转向语音识别、语音合成和语义处理方面。

[编辑] 汉字之难——被打字机抛弃的时代

二十世纪上半叶,英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性,使中文打字机迟迟未能设计出来,再加之基础汉字的学习难度大、时间长,连鲁迅都喊出“汉字不灭,中国必亡”[1]。之后,虽然设计出中文打字机,但要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。毛泽东对此也深感无奈,发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论,在中文信息处理技术发展后期仍然被经常(断章取义的)提及。

1984年的《参考消息》有这样的记载:“法新社洛杉矶8月5日新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”……此时只有中国人仍然用手写从事着创作。

汉字成了被打字机抛弃的“落后文明”,直到二十世纪八十年代PC技术推广下,中文PC系统问世,中文信息输入的问题,才有了初步解决。

[编辑] 汉字的拉丁化问题

主条目:汉字拉丁化

[编辑] 汉字信息处理阶段

硬件:联想巨人、四通等公司的汉卡浪潮紫金的中文电脑;四通中文打字机大洋字幕机

软件:

输入法:

企业:联想方正、四通等一批靠中文处理产品起家的企业。

标准、基础研究:中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准。

学术理论:

1990年代中期,最为普及的计算机操作系统由DOS升级到Windows平台。微软公司从中文版Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。Windows 2000及以上版本,无论采用何种文字,均已支持中文处理。

[编辑] 互联网时代的中文处理

互联网时代对中文信息处理产生了新需求。互联网上的海量数据为中文信息检索提出了新的课题;其次,外文信息已经多到不能人工完翻译的程度,机器翻译的重要性被提到了空前的高度;第三,手机、PDA等移动设备将信息处理需求变成无处不在,非标准键盘的汉字输入需要有新的方案。大量新的课题出现,重新启动了中文信息工作的热情。

[编辑] 汉语信息处理阶段

  • 数字图书馆

與此同時,為方便使國內各民族電腦化的步伐加快,政府作出一連串行動去使這些民族的語言更便於“計算機化”。這一連串行動包括以下各項:

  1. 取消民族語言中的特殊字元,儘可能以26個標準拉丁字母代替。(參看:壯語)
  2. 為還未有文字的民族設立以拉丁字母為本的新文字。
  • 台灣方面,在1990年代曾引發“中文電腦化”及“電腦中文化”的爭議。
    • 資策會方面的意見:認為電腦的操作空間有限。如果不讓中文適應電腦環境,中文就會失去新時代的活動能力而變成死的語言。
    • 學界及業界的意見:操作空間有限的只是短時期的問題。隨着電腦發展日新月異,操作空間的限制很快就變得沒有意義。政府應該在新時代來臨以前,及早制定長遠的標準。
    • 結果:資策會未能在ISO 10646開始討論中日韓文字編碼空間之前產生一個前瞻性的編碼方案,加上當時中國大陸政府的阻撓,使繁體字幾乎要在電腦世界消失。後來幸得多方面商討和配合,同意中日韓三國共用編碼空間,成為了今時今日的中日韓統一表意文字,而台灣的一萬三千多個字亦准以“民間通用標準”為理由成為了統漢碼的參考標準之一。電腦對漢字的親和性增加,而Unicode在統漢碼之後,亦不斷推出擴展A、擴展B及擴展C計劃,以涵蓋歷史上所有曾經出現過及使用過的漢字,並為它們編碼記錄。現時已整理好接近七萬個漢字。



[编辑] 中文電腦系統

运行在DOS上的中文系統
天汇汉字系统TW213
希望汉字系统UCDOS
零壹中文系統
國喬中文系統
倚天中文系統, 它還有Windows版本, 最後一個版本是倚天2000 for Windows
震漢中文系統, 因與倚天高度相似而曾被倚天控告.
其他
這些都是1980年代出產的軟件, 隨著Windows通行都逐一末落了.

[编辑] 編碼

  • 編碼 (encoding): 用數字代替文字
  • 中文內碼:例如Big5
  • 中文交換碼:例如CCCIICNS11643
  • 字集: 要先選擇一定數量的字, 如常用字3500, 或某本字典收錄的八千字
  • 繁體字(主要是台灣及香港用): Big5, 一萬三千多字
  • 簡化字(主要是中國大陸用): GB, 六千多字
  • 繁簡混合: GBK (由GB發展而來), 二萬多字; Unicode2.0(可同時處理日文、韓文等文字), 二萬多字

[编辑] 輸出

字體(印刷字體 font): 細明體(不能使用, 因錯字多)、標楷體(符合台灣字體標準)、SimSun(簡宋, 符合大陸規範)
字型技術(在熒幕及列印機): 點陣(bitmap)、向量(vector)、TrueType、OpenType等

[编辑] 輸入

鍵盤

字形輸入: 五笔字型、倉頡(及因倉頡而衍生的簡易等)、快碼、九方、縱橫等
字音輸入: 漢語拼音、注音、港式拼音及其他方言拼音
其他: 混合字形及字音, 使用英文譯成中文

外置輸入設備

麥克風(語音輸入)、手寫板(手寫認字)、掃描器(字符識別 character recognition)

[编辑] 存儲及交換

要先編碼。如雙方通訊要先協定編碼方案。

[编辑] 內文或網上搜尋

要先編碼。可能要先建立繁簡轉換系統。

[编辑] 外字處理

因中文字並無一精確數量, 而中文電腦收錄的字有限, 故沒收錄的字稱為外字, 也是中文電腦面對最嚴重的問題: 有時會沒字用。
動態組字可因應使用者的需求自行造字,從而解決沒字用的問題。

[编辑] 中文電腦的外延

日文電腦, 韓文電腦, 其他文字的電腦系統
加在其他操作系統或硬件上, 如Linux, Macintosh, PPC, Palm, 手提電話等
搜尋器 (search engine)
語義網 (sementic web)
電子書 (ebook)
電子字典(軟件形式如金山詞霸或硬件形式如快譯通)
電腦輔助翻譯 (computer aided translation)
軟件的國際化(internationalization)和本土化(globalization)
其他

[编辑] 對中文電腦有貢獻的人

[编辑] 參考書籍

[编辑] 專業期刊

[编辑] 参考文献

  1. ^ 鲁迅《病中答救亡情报访员》

[编辑] 外部链接


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -