漢藏語系(Sino-Tibetan/Trans-Himalayan)

古音小鏡「語音映射有序性」量化方法2025版（目前只應用於漢藏語系）
量化值：100% ~~兩個相同的語言~~ 量化值：60% ~~兩個近親語言~~ 量化值：20% ~~兩個遠親語言~~ 量化值：接近0% ~~兩個無關的語言~~ 圖：「語音映射有序性」舉例（以聲母為例、把相同義項上的聲母連成線）一、背景　　古音小鏡漢藏語系關係樹用「語音映射有序性」來判斷語言之間的親疏關係，它原理容易理解：把2個語言中相同義項上的音（比如聲母）連成線，形成一張映射表，那麼易知，連線有序則語言親，連線混亂則語言遠（如上圖）。　　我們這行的創始人是深圳程序員黃藝華，他最先發明這個方法，他用「熵」量化有序性，為漢語方言分區，取得了很好的效果（見此）。我在「漢語地理」欄目也使用這類方法為漢語建樹（見此）。當時，我所用的語保工程漢語字表整齊劃一，對量化方法要求低，現在面對材料複雜的漢藏語系，有了新挑戰：　　① 不同詞數要公平對比。同一個語言，1000詞表進去，200詞進去，出的結果要大致相同。　　② 不同音系結構要公平對比。兩個近親方言，一個100韻母，一個30韻母，出結果要大致相同。　　為實現這2個目的，漢藏語系設計新的量化方法。考慮到大部分朋友看到公式就頭疼，下面略去公式，用數字舉例，直觀講解。　　注意下面會有兩個重要數值：　　① ~~絕對信噪比~~：我用它判斷兩個語言是否有關，這是配角。　　② ~~相對信噪比~~：我用它判斷多個語言誰更親，這是主角。二、絕對信噪比（受詞數、音系結構影響）　　換個視角，有序性等效於信噪比，即每根對應線的寬度較隨機概率的富餘（信）是否顯著於後者的不確定程度（噪），這話有點繞，下面舉例。　　比如，A語言的[h]聲母和B語言的[ŋ]聲母，在詞表中的相同義項上碰面20次，如果這兩個語言毫無關係，算出隨機碰面12次，這12次中不確定程度2次，那麼信噪比是：(20-12):2=4，統計理論中又叫Z分數。該數值越大，[h]-[ŋ]有關係的概率就越大。　　為什麼有「不確定程度」呢？這個太重要了！因為詞表是對現實語言的「抽樣」，它有誤差，不完全反映現實語言的語音比例，詞表越小，誤差越大，越不可靠，因此「不確定程度」是對「隨機碰面次數」可信程度的衡量，因為後者從局限的詞表中算出。如此，我們明白，（20-12）次不能草率判斷是否有關係，還要和不確定程度（2次）比較才能下結論，現在比值是4倍，我們才能相信它倆關係很鐵。　　不確定程度高斯分佈，可用概率論知識算出來（攤開講要一屏幕，請複習大二課程《概率論和數理統計》中相關內容）。　　以上是[h]-[ŋ]的值，依次算出所有聲母的值，再以詞數權重得到均值，把它稱為聲母的「絕對信噪比」。同理算出元音、韻尾，再取三者均值，即總「絕對信噪比」，這個數值可判斷兩語言是否有關係。三、相對信噪比（克服詞數、音系結構影響）　　「絕對信噪比」實現了「判斷兩個語言是否有關係」，但在「兩對（4個）語言誰更親」這個問題上，它有缺點。你肯定已經想到，「絕對信噪比」對詞數、音系結構敏感，詞數越少它越小，音位越少它越大，它沒有實現那2個目標，因此我們需再推進一步：相對信噪比。　　　　①我們把映射表隨機打亂，對！讓它最混亂（就像兩個無關的語言），算得它的「絕對信噪比」A（數值趨近於0）。　　②再把映射表設置到最有序狀態（就像兩個剛分離的最近親語言），讓它最有序，算得它的「絕對信噪比」B（數值以5-30最常見）。　　那麼易知，實際「絕對信噪比」會落在A和B之間，這個相對位置，即(B-A)/B，把它稱為「相對信噪比」（數值在0-100%之間）。這個數值中，詞數差異、音系結構差異被抵消，實現了那2個目標。　　這樣，問題解決了！~~我們用「相對信噪比」量化「語音映射有序性」~~，可實現所有材料公平對比。四、對比詞約束至300個義項　　還有一個小問題沒解決：用核心詞比，和用生僻詞比，所得結果，肯定不同，前者更高。　　為了義項的基本公平，我制定了一份300穩定義項表，選用漢藏語系同源性好、傳承穩定的義項，要求對比詞都必須在這300義項中，除此之外的刪除，不做任何比較。　　這樣，大部分材料之間，可比義項在200-300個之間，少於120個用綠色字警告（表示結論稍差、謹慎參考），少於60個用紅色字警告（表示結論很差、請捨棄）。　　300義項詳情 >>
2025-6-2 (最近一次修改：2026-6-8)

古音小鏡「語音映射有序性」量化方法2025版（目前只應用於漢藏語系）

量化值：100%
~~兩個相同的語言~~

量化值：60%
~~兩個近親語言~~

量化值：20%
~~兩個遠親語言~~

量化值：接近0%
~~兩個無關的語言~~

圖：「語音映射有序性」舉例（以聲母為例、把相同義項上的聲母連成線）

一、背景
　　古音小鏡漢藏語系關係樹用「語音映射有序性」來判斷語言之間的親疏關係，它原理容易理解：把2個語言中相同義項上的音（比如聲母）連成線，形成一張映射表，那麼易知，連線有序則語言親，連線混亂則語言遠（如上圖）。
　　我們這行的創始人是深圳程序員黃藝華，他最先發明這個方法，他用「熵」量化有序性，為漢語方言分區，取得了很好的效果（見此）。我在「漢語地理」欄目也使用這類方法為漢語建樹（見此）。當時，我所用的語保工程漢語字表整齊劃一，對量化方法要求低，現在面對材料複雜的漢藏語系，有了新挑戰：
　　① 不同詞數要公平對比。同一個語言，1000詞表進去，200詞進去，出的結果要大致相同。
　　② 不同音系結構要公平對比。兩個近親方言，一個100韻母，一個30韻母，出結果要大致相同。
　　為實現這2個目的，漢藏語系設計新的量化方法。考慮到大部分朋友看到公式就頭疼，下面略去公式，用數字舉例，直觀講解。
　　注意下面會有兩個重要數值：
　　① ~~絕對信噪比~~：我用它判斷兩個語言是否有關，這是配角。
　　② ~~相對信噪比~~：我用它判斷多個語言誰更親，這是主角。

二、絕對信噪比（受詞數、音系結構影響）
　　換個視角，有序性等效於信噪比，即每根對應線的寬度較隨機概率的富餘（信）是否顯著於後者的不確定程度（噪），這話有點繞，下面舉例。
　　比如，A語言的[h]聲母和B語言的[ŋ]聲母，在詞表中的相同義項上碰面20次，如果這兩個語言毫無關係，算出隨機碰面12次，這12次中不確定程度2次，那麼信噪比是：(20-12):2=4，統計理論中又叫Z分數。該數值越大，[h]-[ŋ]有關係的概率就越大。

　　為什麼有「不確定程度」呢？這個太重要了！因為詞表是對現實語言的「抽樣」，它有誤差，不完全反映現實語言的語音比例，詞表越小，誤差越大，越不可靠，因此「不確定程度」是對「隨機碰面次數」可信程度的衡量，因為後者從局限的詞表中算出。如此，我們明白，（20-12）次不能草率判斷是否有關係，還要和不確定程度（2次）比較才能下結論，現在比值是4倍，我們才能相信它倆關係很鐵。
　　不確定程度高斯分佈，可用概率論知識算出來（攤開講要一屏幕，請複習大二課程《概率論和數理統計》中相關內容）。
　　以上是[h]-[ŋ]的值，依次算出所有聲母的值，再以詞數權重得到均值，把它稱為聲母的「絕對信噪比」。同理算出元音、韻尾，再取三者均值，即總「絕對信噪比」，這個數值可判斷兩語言是否有關係。

三、相對信噪比（克服詞數、音系結構影響）
　　「絕對信噪比」實現了「判斷兩個語言是否有關係」，但在「兩對（4個）語言誰更親」這個問題上，它有缺點。你肯定已經想到，「絕對信噪比」對詞數、音系結構敏感，詞數越少它越小，音位越少它越大，它沒有實現那2個目標，因此我們需再推進一步：相對信噪比。　　

　　①我們把映射表隨機打亂，對！讓它最混亂（就像兩個無關的語言），算得它的「絕對信噪比」A（數值趨近於0）。
　　②再把映射表設置到最有序狀態（就像兩個剛分離的最近親語言），讓它最有序，算得它的「絕對信噪比」B（數值以5-30最常見）。
　　那麼易知，實際「絕對信噪比」會落在A和B之間，這個相對位置，即(B-A)/B，把它稱為「相對信噪比」（數值在0-100%之間）。這個數值中，詞數差異、音系結構差異被抵消，實現了那2個目標。
　　這樣，問題解決了！~~我們用「相對信噪比」量化「語音映射有序性」~~，可實現所有材料公平對比。

四、對比詞約束至300個義項
　　還有一個小問題沒解決：用核心詞比，和用生僻詞比，所得結果，肯定不同，前者更高。
　　為了義項的基本公平，我制定了一份300穩定義項表，選用漢藏語系同源性好、傳承穩定的義項，要求對比詞都必須在這300義項中，除此之外的刪除，不做任何比較。
　　這樣，大部分材料之間，可比義項在200-300個之間，少於120個用綠色字警告（表示結論稍差、謹慎參考），少於60個用紅色字警告（表示結論很差、請捨棄）。
　　300義項詳情 >>

2025-6-2 (最近一次修改：2026-6-8)