CBETA 論壇 Goto CBETA
二月 25, 2018, 08:41:57 下午 *
歡迎光臨, 訪客. 請先 登入註冊一個帳號.

請輸入帳號, 密碼以及預計登入時間
新聞: 即日起歡迎使用 CBETA 新版討論區,本討論區僅供閱讀。
 
   首頁   說明 搜尋 登入 註冊  
頁: [1]
  列印  
作者 主題: budict 中丁福保佛學辭典一些問題請教諸位大德  (閱讀 8567 次)
wxy
一星級
*
文章: 21


« 於: 六月 21, 2009, 06:01:25 下午 »

前段時間整理了一下丁福保佛學辭典,有一些問題,有
的是關於編碼的,有些是重復條目,還有一些是明顯亂
碼。想一一列出來,請教諸位大德。

佛學辭典原始數據不是純 Big5 (1984版) 編碼,而是
cp950 編碼,也即有七個擴充字的 Big5 編碼,在辭典
中的恆、棋、裡用的是恒、碁、裏。是保留原來的編碼
還是轉為純 Big5 碼?

偶爾發現辭典中有重復條目,用了一下 uniq 查出共有
590 個重復條目,有些重復是合理的,如``傳燈'',一
為人名,一為術語;有些是相近的,如``入眾衣'',都
是衣服類,釋文相近,``拘睒彌國'',都是地名類,釋
文一詳一略,``騎牛求牛'',釋文不同。這些重復條目
如何處理?

另有一些則是亂碼,有十個條目,如下:

甲 十三資具 (00dfb.big5.txt 中 7808 行)
    僧腳●迦中的``●''字是亂碼,參照 CBETA 的
    CHM 版的辭典是``敧''字,而 EBS 線上版是簡
    體的``暈''字,根據原辭典上下文,疑為``欹''
    字。
乙 多羅 (48153 行)
    ●櫚中的``●''字是亂碼,參照 CBETA 版是
    ``[梭-(台-口)+凶]''字,EBS 線上版是``岸''
    字,根據上下文,疑為``棕''字。
丙 多羅葉 (48163 行)
    情況同上。
丁 伽 (55116 行)
    我、●、仰中``●''字是亂碼,參照 CBETA 版
    是``[口*虐]''字,EBS 線上版是簡體``[木*見]''
    字。
戊 陀那伽他 (64989 行)
    亂碼情況同甲。
己 拘那彌國 (88458 行)
    故●室中``●''字是亂碼,參照 CBETA 版是
    ``[土*尃]''字,EBS 線上版是簡體的``禍''
    字,根據文義疑為``塼''字。
庚 渴樹羅 (114253 行)
    亂碼情況同乙,EBS 線上版是簡體``輪''字。
辛 [言*我] (130431 行)
    亂碼情況同丁。
壬 鍵 (146306 行)
    亂碼情況同丁。
癸 如來藏經十喻 (152325 行)
    三●中之中的``●''是亂碼,參照 CBETA 版是
   ``[禾*會]''字,EBS 線上版是簡體的``鋮''字。

以上問題請諸位大德指教,共同完善佛學辭典,謝先。
« 最後編輯時間: 六月 21, 2009, 06:04:26 下午 由 wxy » 已記錄

諸惡莫作
眾善奉行
cbeta
備位版工
四星級
*****
文章: 219


很高興能為您服務


個人網站
« 回覆文章 #1 於: 六月 22, 2009, 05:10:16 下午 »

我個人是建議,原來的用字就保留,重覆條目也保留。

因為用字未來極可能會擴大到 unicode,範圍大比較好做事。

而辭典處理在未來也可能包含多部辭典,重複的情況一定會遇到,所以這類情況最好是保留。
已記錄

CBETA 中華電子佛典協會
地址: 11246 台北市北投區光明路276號4樓 
電話: +886-2-28932133
網站: http://www.cbeta.org
電子郵件: service@cbeta.org
贊助資訊: http://www.cbeta.org/donation/index.php
maha
管理群
四星級
*****
文章: 481


« 回覆文章 #2 於: 六月 24, 2009, 09:02:48 上午 »

用字方面當以《丁福保》原書為底本,底本若有錯訛在考證之後再加以修訂。

手上有《丁福保》原書的朋友,還請幫忙查證。

maha
已記錄
頁: [1]
  列印  
 
前往:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.9 | SMF © 2006-2009, Simple Machines LLC Valid XHTML 1.0! Valid CSS!