提示:近來機器人較多、網站若有停頓、請隔半小時後再訪問

The tree of sinitic based on phonetic correspondence differences
自助選擇1294種漢語建樹(依據語音對應整齊程度)

一、建樹數據

  漢語關係樹的數據依據「漢語分手時間表」,分手時間表依據「各地漢語語音距離」,後者是1284種漢語的「語音對應整齊程度」,因此關係樹的實質是語言的音類差異,它反映語言較根本的分歧。

二、樹在信息中的地位

  「漢語分手時間表」是1284種漢語兩兩時間關係,是一張1284*1284的表,有約160萬個時間值,這些數據眼花繚亂,不便觀察,所以要轉成樹。這好比50个學生兩兩比賽,得到一張50*50的得分表,建樹則是用這張表來排定名次。從方法看,二維表轉樹不是确定无疑的,它取決於對所有成員之間、所有成績數值的不同深度的比較,不同方法建的樹會稍有差異。

三、建樹方法

  二維表建樹有多種方法:平均距離法、平方距離法(最小二乘法)、貝葉斯法、最大似然法等,計算量依次增大,你可以在python的統計學庫中使用它們,其中貝葉斯法已成為較流行的語言建樹方法。本網頁採用平均距離法,是最簡單直觀的建樹方法。為什麼選擇它?是因為算力最輕,可以在網頁等待的時間裡為您建樹。100語言樹、200語言樹已優化到1秒、3秒,最大可建380語言樹,需要等待約15秒。平均距離法不斷尋找最接近的數據進行合併,合併後取平均值,形成樹枝的枝叉,如此往復,從末端向根建樹。方法已寫入網頁程序,當你點下鼠標後它實時建樹。如有專業要求,可在這裡複製「建樹原數據」,在自己電腦上用自己喜歡的方法建樹。

四、時間依據

  見「漢語分手時間表」。

五、關於節點的時間(重要!)

  在「漢語分手時間表」中,給出了16類漢語兩兩之間的時間距離,這是平均化數值,所以少量獨特語言(如粵語的儋州話)所起的作用較小。在漢語關係樹中,節點時間來自下一級節點,所以少量獨特語言所起的作用較大。這兩種時間,計算思路不同,會有一些差異,相信哪個時間,取決於你對獨特語言的看法。

六、統計材料

  語保工程1284種漢語字音(公開材料)+瓦鄉話10種(楊蔚《湘西鄉話語音研究》 跳跳老鼠錄入和分享)。

七、局限須知

  此樹只可理解為關係,不可理解為譜係,它顯示語言的相似性,而非親緣性,因語言的歷史譜係常讓人吵架,本功能不討論譜係問題。

八、參考作品

  黃藝華:基於方言之間的預測相似度進行方言聚類 (音類法漢語聚類的先驅)

  王贇:方言音系、韻母「存古度」的一種定量描述 (一個出色的音類差異量化方法)


感謝近年來工作在一線的漢語調查工作者!

 
蘇ICP備17001294號 | 0.47MB 0.71MB 0.001s | 材料如有冒犯通知即刪