SGB

From Phonology

Revision as of 02:46, 20 April 2007 by 218.249.41.60 (Talk)
(diff) ←Older revision | view current revision (diff) | Newer revision→ (diff)

Contents

Sinogram Graphemic Database

SGD——Sinogram Graphemic Database。

Graphemic 這個詞由詞幹graph-和後綴-eme構成(-ic 想來也用不著解釋)。Graph是gram的動詞形,表示書寫,可直譯作「書」;-eme表示元素,我還沒找到恰當的字眼來翻譯。很無奈的是字元這個詞已經被安上了不相干的意思,況且「字」的本義爲滋乳,用作文字的簡稱本來就不很貼切。沒辦法姑且用希臘文說事吧,至於字形、字型甚麼的,權作便利之變通。

對漢字的分析

漢字本身不能稱其爲科學,其創作意趣更近乎藝術,推演也不盡嚴密。但是這並不妨礙我們用科學的方法去分析她。所謂科學就必須以客觀實在爲根據與歸結。最簡單也是最可靠的研究方法就是對全部樣本——即對所有的字——逐個地,細緻地觀查,發現潛在的規律,整理成條文或者算式,然後再檢驗它是否可靠。而且,凡法則都有其成立的條件與適用的範圍。放之四海皆準的唯一真理事實上是不存在的,或者即使存在也與科學無關。


SGD 所分析對象準確地說是漢字的眞書。依筆劃種類及結構方式而論,手寫的楷書與剞劂所用到的宋體僅有風格上的差異並無體制上的不同,這裏所說的眞書也就是這兩類字體的概括。下文所說的漢字,不加特殊限定者,專指眞書。SGD將要成為一箇綜合性的數據庫,收蓄多種與字形關連的漢字屬性信息,然而題目是明確的, SGD的框架只有一箇,凡不在此框架之上的信息都不在SGD所劃定的範疇之内,也就是說它可以充當更複雜的中文文字學數據庫系統的一箇有機的組成部分。那麼,SGD的框架究竟是甚麼呢?連系上文所指出的漢字分析的原則,即客觀原則和相對原則,我們目前在此原則之上對漢字的認識角度和程度處於如下狀態:

一,筆劃

所有的漢字都由筆劃構成,書寫漢字所用到的全部筆劃可歸結爲數十類。筆劃是高度抽象的概念,筆劃的類型僅由線段的線性概括形(走勢)和平面概括姿態(縱橫)決定,具體的如線形粗細、線段的長短、起收筆的法式、直筆的角度,曲筆的弧度等都是相對於字體部件的附屬特徵而不是筆劃的本質。CDL 以客觀原則歸納了39種筆劃*,據載,將其延縮定位(筆劃本身無dimension特徵)後再配以相應的字體特徵,則可組構成CDL數據庫所收納的全部4 萬余字。而傳統的永字八法及中國大陸79年版《辭海》的筆劃檢字表複將39種筆劃進一步概括(不計時間先後)。我們通常所說的橫豎撇點折就是這種更爲抽象的分類。前者CDL之39筆劃可實書成字,不妨稱作抽象的具體,後者之5筆劃只成立於案覈印證,不足以直接拿來作構字的材料,我們管它叫抽象的抽象。張時釗先生的「無字庫漢字」實質上就是基於實書用筆劃加定位符的算式的構字數據庫。「構字」不是造字,而是以成字材料疊構成字。以張氏的數據庫爲例,一箇算式對應一箇確定形態的漢字,對計算機而言,算式(表達式。明晰起見,下稱構字式)的值可以作為函數的自變量(變數)而與之唯一對應的漢字就是應變量,兩者之間是函數關係。SGD的目標之一即是以線性數據和算法重現漢字。

22:46, 19 April 2007 (EDT)~

  • 詳見CDL:The Set of Basic CJK Unified Stroke Types

二,「說文解字」

《說文解字》首創了分別部居和因形系連的的概念,顧野王又將篆文的分部法加以提煉,借鑒於眞書。梅膺祚結合書法理論中對筆劃的認識在此基礎上發明了部首和筆劃數配合的檢字法。檢字是漢字字形特徵數據的重要功用之,但傳統意義上的檢字不要求一一對應的關係。部首筆劃檢字法下給定的數據可以對應多箇漢字,所以該法不能實現數據到漢字(確定字形的漢字)的還原。從某個角度來看,《說文》是以分部爲手段講造字機理的書,字形是以形求義以形求實的參考,不是核心的描述對象。如辭條:「度,法制也。从又,庶省聲」——「度」字所從之「又」是明確的形態,而「庶省」則不然,你無法單從一個「省」字中看出到底省在哪里,省了多少。而且又和庶省又是甚麼樣的空間關係呢,文中略而不表。又如:「進,登也。从辵,閵省聲。」閵省聲乾脆就是另外一箇字了。許叔重對文字的解說中最值得注意的是他的拆分講解的思路。《說文》通篇都暗示著:字是可拆解的,至少相對於文而言的字是可拆解的,這樣一種思想。雖然現實中漢字的發展確鑿是按著滋乳、疊合、綴飾這樣的方向進行的,但是自覺的認識到這一點,以至貫徹性地按著這一原理對文字進行全面的分析,這可並不容易。《說文》的影響是空前絕後的,好比今人有把邊旁(偏旁)錯會成部首者就是感性對理論的盲目攀連,亦可見理論之重要。SGD的框架也是對《說文》思想的一種繼承。它所採用的分析方式是基於IDS(詳見The Unicode Standard 4.0 Chapter 11 中介紹IDS的段落,及盛版主張於本版的譯文),原則上是就字論字——像《說文》所載的「某省」之類不在字中的信息則不予採納。

三,結構分析

不清楚這一理論草創於何人。簡單的說,結構分析就是「獨體、合體、左右、上下、包圍」。字的結構是以素材而重現漢字所必不可少的信息。比如「旯旮、陲郵」等,相同的部件(形式上)不同的結構方式就是不同的字。同一部件在不同的位置又有所變化,如阜居左多作阝,邑居右亦多作阝。我們可以通過位置因素來確定同形構字變體「阝」所對應的本字到底是哪一個。又,「郵切」中的的垂、七皆因居左而末筆變形,這是實現視覺再現絕不可忽視的現象。

四、字根(字元)及其他

字根的概念也不知最初是由誰提出的。揚棄了保守漢字的偏見來說話罷:字不是從字根上長出來的,字根的細胞也絕無可能克隆出鮮活的字來。朱邦復、王永民先生的用意當然是好的,可歎步塵者師心自用往往叛離了先驅者的苦心。一句話:輸入法從來也永遠不可能成為漢字的皈依。其實,倉頡、五筆與四角號碼、中國字庋擷一樣,都是漢字的檢索法,以抽象的抽象而無法再現漢字。

Personal tools