wxy 兄是否可以做一份 unicode 版本的 budict ?
前些天試著用了 iconv 轉碼,發現辭典數據並非純
Big5 (1984版) 編碼,而是微軟版的 Big5 編碼,也
即 iconv 中的 cp950。另有些無法轉碼的情況:
1. 亂碼。有好幾處。其中丁福保大辭典根據 cbeta
提供的一版做了部份修正,其他以●代替。
2. 中文符號,如數字外加一個圓圈,以數字加括號
代替。
3. 中文符號,如全角的 [],以西文 [] 代替。
4. 日文符號,以●代替,有幾處。
經過幾百次的 iconv,終於將十三個辭典數據轉碼
完畢,其中法相辭典和英英辭典與原始文件一致,
沒有任何變動。
因目前旅居澳洲,手頭沒有紙本書做校對,做了如
許多變更心裡很犹豫,昨天上傳至 sourceforge
上至一半時出了網絡故障,更覺不安。沒有紙本書
的依據來修改佛學辭典很不妥,所以今天又撤銷了
新版數據。如果您需要,可以發郵件給您,僅作為
個人交流,不擔負任何責任。
我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
從辭典的使用上來看,統一碼應該是一種比較好
的選擇,甚至可能是唯一的選擇。佛學辭典中還
有一些梵文和日文,不用統一碼很難解決。
用大五碼過渡一段時間也是一種無奈的選擇,要
考慮一些老舊系統和非主流系統尚不完全支持統
一碼,統一碼要一統尚需時日。
從文字角度看,缺字似乎不是使用統一碼的必
需理由。缺字問題出現似乎不屬技術問題,有
些異體字需要文字學者來做一些規範。有些異
體字是俗體字,可以考慮采用正體。漢代許慎
的說文解字僅有九千多字,但到了清代康熙字
典就有幾萬字。異體字的出現會帶來一些技術
上棘手的處理,如做檢索時就不能僅根據編碼
來做分詞,要考慮意同字不同的情況。希望能
對佛經中文字做些規範,以唐宋時善本為依據,
去除手寫本中的一些異體字。