提示:上古音欄目內部位置有所調整、所有功能都在、可仔細找找
方法古音小鏡用計算機求取民族語同源語素的方法
目的語音對應和同源詞,是歷史語言學的精華,設計電腦程序,找到它們,節省人腦開銷,讓研究者專注更重要的工作。
基本原理 ① 音標是否相似(編輯距離)
② 語音對應能否成立
(不以IPA音標相似來判斷同源語素、以傳統語言學的語音對應判斷同源語素、先求取語音對應再求取同源語素)
語音對應語音對應須同時滿足2個條件:
音類實際接觸須大於隨機概率。
音類實際接觸較隨機概率的富餘須大於後者的不確定程度。
解釋:不確定程度主要來自樣本數量規模(如詞表規模小、音類規模小會影響到可信程度,給您一張百詞表,您顯然不敢用,因為數量太少,那些音標不能良好反映該語言中各音類的比例面貌),從統計理論看,該不確定性正態分佈(高斯噪聲),可量化其標準差,即我們可以知道它的擺動範圍。 好比我們不但知道某考生的考試平均分,還知道他考試的發揮穩定性,這樣我們才能知道他考多少分是可信的。 ①和②形成求取語音對應的重要條件:信噪比,通過控制其閾值來求取語音對應。這是可信度的保障:使詞數較少的詞表同樣可信、使音節數量差異很大的語言同樣可信、使錯誤率可知和可量化。
其中①是中學數學的知識(很容易理解)、②是概率論和數理統計的知識(對未接觸這門課的讀者不太容易理解、它用於解決可信度、熨平材料的差異)。
語素對齊實際的詞有多個音節,我們並不知道語素的次序,哪個音節應該對哪個呢?比如甲語言2個音節,乙語言3個音節,那麼可存在6種音節組合,但只有一種是對的。採取以下辦法:
① 取全部詞的全部組合(比如上面例子6組全取),讓所有音碰撞,統計語音對應(這時無用信息量是很大的,結果是很糟糕的,但不要緊,裡頭已取到對應信息,它們是有序的,而不對應信息是無序的,它們的疊加仍然是有序的)。
② 以求取的語音對應(它們是量化的數值),代入所有音節組合,取總值最大的那個組合(比如上面例子6組裡只取1組),所有詞的音節組合確定後,再統計語音對應(這時的結果會變好一點)。
③ 不斷重複②的操作:

求取→代入→求取
↑     ↓
代入→求取→代入

循環轉圈,隨著次數增多,語音對應逐漸精確,音節對齊逐漸準確,噪聲逐漸減小,結論的質量逐漸提高。
這樣得到的結果並不100%正確,但可能性最大。
逼近和穩定以上「音節對齊」是個收斂的過程,重複循環運行到結果不再改變,停止它,這時得到可能性最大的音節對齊結果和噪聲最小的語音對應結果。該方法避免了通過IPA音值相似來對齊音節。
求取同源語素以上操作,得到聲母對應、韻母對應、聲調對應(它們都是數值),用這3對數值篩取同源語素,網有了魚就有了。如此得到的同源語素,它們的聲母、韻母、聲調,大多擁有較多對應例子,這是同源詞最直接的證據,但少數仍然可能只有自己一個對應例子,原因是該音詞少、語言遙遠、詞表較小等,這也是正常的。
錯誤率平均錯誤率約3%,即平均每30根對應線中有一根存在錯誤(不同詞裡有多有少並不均勻)。
算力可行性循環逼近會消耗很多算力,在目前中高性能電腦上,一對語言可控制在5s左右,100個語言兩兩組合的時間開銷是:5*(100*100/2) ≈ 7小時,在可接受範圍內。目前電腦算力已達到該方法的忍受門檻。
素材內部縱深包含語言/素材出處同源詞求取設置備註
苗瑤語素
2021-06-20 推出
約2500年苗瑤語系(46種)
語保工程
是否比較聲調:是
信噪比閾值:1.5
刪除孤例數:2
川黔滇苗語分為黔中苗語、西部苗語兩類
侗台語素
2021-10-05 推出
約4500年侗台語系(74種)
語保工程
是否比較聲調:是
信噪比閾值:1.5
刪除孤例數:2
仱語:侗水語
依語:北部壯語
儂語:南部壯語
貝話:臨高話
僚語:仡佬語
南亞語素[境內]
2024-02-03 推出
約6000年
(境內的)
南亞語系·中國境內(21種)
語保工程
是否比較聲調:否
信噪比閾值:1.6
刪除孤例數:2
羌語素
2024-03-02 推出
約6000年漢藏語系·羌語群(42種)
語保工程
是否比較聲調:否
信噪比閾值:2
刪除孤例數:2
複輔音、複韻尾只比較基輔音成分(見說明)
藏語素
2024-03-22 推出
約2500年漢藏語系·中國境內(29種)
語保工程
是否比較聲調:否
信噪比閾值:2
刪除孤例數:2
尼語素
2024-05-25 推出
約4000年漢藏語系·緬彝語(88種)
怒蘇語:孫宏開《怒族語言簡志》感謝葛佳琦製作和分享材料
緬甸語:汪大年、蔡向陽《緬甸語方言研究》感謝潘悟雲分享材料
其他:語保工程
是否比較聲調:否
信噪比閾值:2
刪除孤例數:2
該族古代稱尼
僰語素
2024-05-30 推出
約6000年漢藏語系·中國西南遠古分化語30種
(白語/土家語/納西語/景頗語/獨龍語)
語保工程
是否比較聲調:否
信噪比閾值:1.6
刪除孤例數:2
該地區上古稱僰
南亞語素
計劃中 推出
-南亞語全部13分支
Sealang數據
是否比較聲調:
信噪比閾值:
刪除孤例數:
舉例在「苗瑤語」的「豬圈」一詞中大約可分析為5個語素
 
蘇ICP備17001294號 | 0.53MB 0.67MB 0s | 材料如有冒犯通知即刪