提示:上古音欄目內部位置有所調整、所有功能都在、可仔細找找
—— 依據「語音對應整齊程度」的漢語歷史觀察工具

量化值:100%
兩語言關係密切

量化值:58%
兩語言關係中等

量化值:13%
兩語言關係很差

量化值:2%
兩語言幾乎無關

圖:四對理想語言的1000字聲母對應關係

一、語音距離

  語音距離,大體有兩種方法:一是給音標們規定好距離,比如o-u近,a-u遠,給定距離,然後做量化統計;二是不理會音標,只比較音類對應的整齊程度,把音標換成任何符號都不影響結果。小站採用第二種,稱其為「語音對應整齊度」。

  我們知道,親緣語言存在語音對應,語言越親密,語音對應整齊度越好,語言越疏遠,語音對應整齊度越差。「好、差」是一種直覺,如果量化為一個可比的數字,讓一大堆語言公平對比,是需要動腦筋的,網絡上已經有兩位前輩做了很好的實踐:

  黃藝華:基於方言之間的預測相似度進行方言聚類 (音類法漢語聚類的先驅)

  王贇:方言音系、韻母「存古度」的一種定量描述 (一個出色的音類差異量化方法)

  推薦大家讀讀這兩篇網文,會有很大啟發和收穫。

二、量化要求

  ① 切中要害、兼顧算力,1000多個語言兩兩比較,超過100萬組,每組若0.1秒要用36小時。

  ② 字音表字數不同、各語言聲韻調數量不同,都是材料的普遍情況,這些差異不能影響可比性,計算方法要抹平這些差異,進行公平對比。

  ③ 量化值要求在0%-100%間。

三、計算方法

  考慮到上面3個要求,小站採用的辦法如下:

  觀察上面四圖,我們不難發現一個規律:語音對應越整齊,每根對應線佔據兩端音位的字數比例越高,如第一圖,所有線兩端都是100%;反之則越低,如第四圖,多數線兩端都不到10%。我們把單根對應線佔據左、右端音位字數比例記為a%、b%,定義「a%乘b%」為這根線的「獨立程度」(在0-100%之間),那麼容易得到:

對應線「獨立程度」越高 => 「語音對應整齊度」越高 => 語言關係越親密

  這樣,就得到了一個直觀的、有效的「語音對應整齊度」量化方法,下面舉例子說明:

  假設某一對語言,聲母有100根對應線,第一根t-d對應,該線粗為10字,t端有20字,d端有40字,即分別佔50%、25%,那麼該線的「獨立程度」可記為:50%*25%=12.5%。 如此計算全部100根線,再以每根線的字數加權求平均,得到平均的「獨立程度」(即上面四圖的數值),這個數值在0-100%間,該值越高,聲母對應越整齊,語言越親密。 分別對「聲母、韻母、聲調、介音、元音、韻尾、聲母+介音、元音+韻尾」8組對應進行計算,得到8組「獨立程度」,再以每組加權平均(權重見下),再次得到平均化的「獨立程度」,仍在0%-100%間,這個值被小站稱為兩個語言的「語音對應整齊度」,是網頁使用的最終數據。

四、總分權重

  聲母 4、韻母 4、聲調 1、介音 1、元音 1、韻尾 1、聲母+介音 2、元音+韻尾 2 (分母是16)。除最後兩組,權重的依據是音位的平均數量。

五、多音字處理

  多音字會增加語音對應的複雜性,要認真處理,辦法如下:

  ① 有標註白讀且白讀唯一的,採用這個白讀音,其他音不用。

  ② 未標註白讀的,去掉文、新、又音後如果只剩一個音,那麼採用這個音,其他音不用。

  其中約75%多音字滿足①,5%多音字滿足②,也就是說,約80%多音字得到了利用,剩下20%多音字全部捨棄,不參與統計。如此處理後,所有字都滿足一字一音,語音面貌力求白讀層次。

六、避錯

  計算方法已考慮到一些求穩、避錯的措施,如下:

  ① 弱化特殊音影響:要求特殊音變、特殊對應對結果影響小,由於每條對應規則已乘上字數的權重,字少的對應規則,對得分影響小,所以語言中的借用層次,如果字不太多,就不影響大局。

  ② 聲調的影響力:經常見到,同一種語言,東鄉比西鄉少一個聲調,得分差別會不會很大?不會的。計算結果中,聲調權重是1/16(聲調數量較少,因而權重也小,見「總分權重」)。

七、統計數據

  語保工程1284種漢語字音(公開材料)+瓦鄉話10種(楊蔚《湘西鄉話語音研究》 跳跳老鼠錄入和分享)。

八、局限須知

  ① 除了歷史演化造成對應複雜,字音層次、語言混合也會造成對應複雜,該方法是無法分辨的,所以它反映的是語音「親密性」,而非「親緣性」。

  ② 語言中反映重要歷史的字詞,往往比較少量,如一等重韻、魚虞韻等,該方法對歷史證據不分主要、次要,所以傳統分析仍然很重要。

感謝近年來工作在一線的漢語調查工作者!

 
蘇ICP備17001294號 | 0.51MB 0.67MB 0.008s | 材料如有冒犯通知即刪