Wednesday, August 14, 2013

"對數函數熵" 冗餘度愈大,語言的識別力愈大,抗錯能力也愈強; 現代標準漢語中,冗餘度約在 55% ~ 80% 之間(視表達的場合而定)。概括說來,漢語的冗餘度較英語低,代表漢語表達的「廢話」較英語低,漢語較英語來得「精練」。這很合直覺,因為屈折語的格位多、亂度低(熵值低),所以冗餘度也就較中文這種孤立語高

【讀書小筆記】語言的「熵」和「冗餘性」

(2012-07-26 23:26:55)

标签:

冗餘度

杂谈

分类: 語言文字

TG 總算稍微見識到了杭士基(或譯喬姆斯基,Avram Noam Chomsky)在作的東西了。語言,原來也是有「熵(entropy)」的存在,借用物理熱力學的「亂度」來定義的東西。
大概的意思是說,一個自然語言(或一般文章),當說話者將前一個詞講出之後,聽者是否能夠根據這個字詞,預測出接下來的一個詞(或字母);即語言的「隨機性」的大小估算值。舉例來說,
I am a boy, and you are a girl.
這當中的 am、are、a,在英語裡是沒有太大的「不確定性」。
從此得出來的一種估量機率值,就是「熵(entropy)」,H。
想當然爾,這麼小的數值,一定會用「對數函數」來表示。
和「熵」有關的,則是再推衍下一步,是個比較具有實際運用概念的「冗餘度(redundancy,或譯羨餘度)」,是把「1」減去「熵的極限比值」,R。
冗餘度愈大,語言的識別力愈大,抗錯能力也愈強;像上面例子中,假如 am、are、and、冠詞 a,沒講清楚,也絕對不影響語意上的表達。但是,冗餘度大,也代表該語言比較「累贅」,精練度不足。

【讀書小筆記】語言的「熵」和「冗餘性」
由上表可以看出,若撰寫科技期刊,「廢話」一定較多,因為有「內容精準」的先天要求。這裡沒有列出,但我猜「日語」的冗餘度,在相較之下應該也會非常高吧……
照馮志偉先生在《語言與數學》一書中的說法,現代標準漢語中,冗餘度約在 55% ~ 80% 之間(視表達的場合而定)。概括說來,漢語的冗餘度較英語低,代表漢語表達的「廢話」較英語低,漢語較英語來得「精練」。這很合直覺,因為屈折語的格位多、亂度低(熵值低),所以冗餘度也就較中文這種孤立語高了。

真的要比較語言之間的性質,還真的必須多多朝向「統計數據」的方向努力,多多研讀專業期刊。
這是個「科學化」的年代了,就像傳統心理學已逐漸有成了「腦神經科學」的小媳婦的趨勢,連文科語言研究呢,都不該再成天光嘴砲偷懶了。以後,要是聽到見到名嘴名筆天花亂綴,只會說出「英語是超合乎邏輯的語言喲~~」這種思春言論,那就該自己捏XX了結了……

No comments:

Post a Comment