CBETA 論壇 Goto CBETA
二月 25, 2018, 08:43:37 下午 *
歡迎光臨, 訪客. 請先 登入註冊一個帳號.

請輸入帳號, 密碼以及預計登入時間
新聞: 即日起歡迎使用 CBETA 新版討論區,本討論區僅供閱讀。
 
   首頁   說明 搜尋 登入 註冊  
頁: 1 2 [3]
  列印  
作者 主題: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd  (閱讀 56802 次)
wxy
一星級
*
文章: 21


« 回覆文章 #30 於: 四月 07, 2009, 02:35:25 下午 »

談接手實在不敢,我們在技術上的能力可能還不足夠,不過卻是很希望能在這一塊領域也盡一份心力。所以目前不知 wxy 希望我們如何 "接手" ?我只是想到先放在 CBETA 站上,提供大家下載。

十分感謝貴協會接手,主要想法有二:
一是請協會給出一個合適的版權聲明。末學的項目用的
公有領域 (Public Domain) 版權,對代碼來說挺合適,
但對辭典數據文件未必合適。辭典數據如果任意修改不
太好,所以請協會來給一個好一些的,協會在佛典電子
化方做了許多工作,有這方面的經驗。
二是請協會把辭典文件放在站上,提供下載。末學將把
這些文件從 budict 項目中移出。這些辭典文件都是 C5
格式的 plain text 文件,大約有 14M 左右。

如果協會能有計劃校對辭典就更好了,末學願提供幫助。
已記錄

諸惡莫作
眾善奉行
wxy
一星級
*
文章: 21


« 回覆文章 #31 於: 四月 07, 2009, 02:51:13 下午 »

我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
要轉換跑一下 iconv 就好了
iconv -f CP950 -t UTF-8 input

wxy 兄是否可以做一份 unicode 版本的 budict ?

另外我再 CentOS 上無法架設 dictd,執行之後就直接死掉,ps 裡面看都沒有。
請問您是用 FreeBSD 6/7 還是 Linux 架設呢?

如果希望使用 unicode 版,可以先將 C5 格式的
辭典數據 (目前 budict 上有) 用 iconv 轉換成 utf8
編碼的,然後用 dictfmt 生成 .data.dz 和 .index

% env LC_ALL=utf8 dictfmt -c5 --utf8 demo < demo.c5.txt

再用以下參數啟動 dictd

# env LC_ALL=utf8 dictd

如果使用的 console 支持 utf8 可以直接查。
如果用 web-front 要把 ph1.html 輸出中 big5 編碼
換成 utf8 編碼,大致就可以了。您可以試試。
已記錄

諸惡莫作
眾善奉行
cbeta
備位版工
四星級
*****
文章: 219


很高興能為您服務


個人網站
« 回覆文章 #32 於: 四月 08, 2009, 12:33:28 下午 »

因為 CBETA 光碟又進入最後的階段,這些建議我們大概會在光碟完成後接著進行,目前暫時無法有太多的考量,僅能暫時簡單回應一些想法:

我的想法如下:
  • 在貴站主機設置 dict.cbeta.org
  • 架設 wiki 軟體(要用哪一套可以慢慢評估)
  • wiki 有兩個好處,第一:可以拿來查詢
  • 第二:可以用來作討論校正。
當然,不能像是 wikipedia 那樣子開放。佛法為無上妙法,要讓註冊的人才有編輯與發言權限。等等的控制。

這個想法也很好,其實我們也有想過可以分別架設
http://dict.cbeta.org
http://wiki.cbeta.org

只是要如何區分功能及如何充份應用, 都有待進一步討論.

十分感謝貴協會接手,主要想法有二:
一是請協會給出一個合適的版權聲明。末學的項目用的
公有領域 (Public Domain) 版權,對代碼來說挺合適,
但對辭典數據文件未必合適。辭典數據如果任意修改不
太好,所以請協會來給一個好一些的,協會在佛典電子
化方做了許多工作,有這方面的經驗。
二是請協會把辭典文件放在站上,提供下載。末學將把
這些文件從 budict 項目中移出。這些辭典文件都是 C5
格式的 plain text 文件,大約有 14M 左右。
如果協會能有計劃校對辭典就更好了,末學願提供幫助。

我們對版權也不是很有經驗,目前 CBETA 主要的版權說明可以參考此頁:
http://www.cbeta.org/copyright.htm
原則上我們也是希望資料能免費自由流通,但不希望使用者自行修改文字,但對於格式及標點或明顯的小錯誤,又不願限制使用者,所以才有上述的版權說明。

提供文件原始格式及各種應用的格式下載,我們是很樂意的,不過要等一陣子才行,最近因為光碟的事,大概沒時間處理這方面了。

先感謝大家熱心協助,並歡迎持續給我們建議。
已記錄

CBETA 中華電子佛典協會
地址: 11246 台北市北投區光明路276號4樓 
電話: +886-2-28932133
網站: http://www.cbeta.org
電子郵件: service@cbeta.org
贊助資訊: http://www.cbeta.org/donation/index.php
wxy
一星級
*
文章: 21


« 回覆文章 #33 於: 四月 26, 2009, 08:39:02 下午 »

wxy 兄是否可以做一份 unicode 版本的 budict ?
前些天試著用了 iconv 轉碼,發現辭典數據並非純
Big5 (1984版) 編碼,而是微軟版的 Big5 編碼,也
即 iconv 中的 cp950。另有些無法轉碼的情況:

1. 亂碼。有好幾處。其中丁福保大辭典根據 cbeta
   提供的一版做了部份修正,其他以●代替。
2. 中文符號,如數字外加一個圓圈,以數字加括號
   代替。
3. 中文符號,如全角的 [],以西文 [] 代替。
4. 日文符號,以●代替,有幾處。

經過幾百次的 iconv,終於將十三個辭典數據轉碼
完畢,其中法相辭典和英英辭典與原始文件一致,
沒有任何變動。

因目前旅居澳洲,手頭沒有紙本書做校對,做了如
許多變更心裡很犹豫,昨天上傳至 sourceforge
上至一半時出了網絡故障,更覺不安。沒有紙本書
的依據來修改佛學辭典很不妥,所以今天又撤銷了
新版數據。如果您需要,可以發郵件給您,僅作為
個人交流,不擔負任何責任。

我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
從辭典的使用上來看,統一碼應該是一種比較好
的選擇,甚至可能是唯一的選擇。佛學辭典中還
有一些梵文和日文,不用統一碼很難解決。

用大五碼過渡一段時間也是一種無奈的選擇,要
考慮一些老舊系統和非主流系統尚不完全支持統
一碼,統一碼要一統尚需時日。

從文字角度看,缺字似乎不是使用統一碼的必
需理由。缺字問題出現似乎不屬技術問題,有
些異體字需要文字學者來做一些規範。有些異
體字是俗體字,可以考慮采用正體。漢代許慎
的說文解字僅有九千多字,但到了清代康熙字
典就有幾萬字。異體字的出現會帶來一些技術
上棘手的處理,如做檢索時就不能僅根據編碼
來做分詞,要考慮意同字不同的情況。希望能
對佛經中文字做些規範,以唐宋時善本為依據,
去除手寫本中的一些異體字。
已記錄

諸惡莫作
眾善奉行
wxy
一星級
*
文章: 21


« 回覆文章 #34 於: 四月 26, 2009, 08:44:23 下午 »

我們對版權也不是很有經驗,目前 CBETA 主要的版權說明可以參考此頁:
http://www.cbeta.org/copyright.htm
原則上我們也是希望資料能免費自由流通,但不希望使用者自行修改文字,但對於格式及標點或明顯的小錯誤,又不願限制使用者,所以才有上述的版權說明。

提供文件原始格式及各種應用的格式下載,我們是很樂意的,不過要等一陣子才行,最近因為光碟的事,大概沒時間處理這方面了。

先感謝大家熱心協助,並歡迎持續給我們建議。

看了協會的版權聲明,很適合佛經類資料。請
您空閑下來,通知末學,把佛學辭典數據轉由
協會維護,讓您費心了。
已記錄

諸惡莫作
眾善奉行
iamone
一星級
*
文章: 11


« 回覆文章 #35 於: 五月 13, 2009, 10:21:49 上午 »

我自己下了这些词典,也都转换成utf8使用了,

最终感想就是乱。

希望能把这些东西用在wiki上,大家有机会慢慢修改成准确的东西。
已記錄
wxy
一星級
*
文章: 21


« 回覆文章 #36 於: 六月 21, 2009, 05:37:56 下午 »

準備先從丁福保佛學辭典入手,做些整理
和校對的工作。
已記錄

諸惡莫作
眾善奉行
wxy
一星級
*
文章: 21


« 回覆文章 #37 於: 十二月 02, 2009, 04:07:43 下午 »

前些天偶爾看到佛學辭典中有圖片標簽,<PIC>...</PIC>
絕大多數來自丁福保佛學大辭典。順手在 filter.sed 文
件中又加了一項,這樣就可以在查詢出來有圖片的詞條中
看到圖片了,見附件截圖。

新版剛剛上傳到 sourceforge 上了,又把圖片文件打包
放了上去,同時把所有詞典文件打包上傳了,這樣需要全
部詞典就可以一次下載下來,不必一個一個地下載了。源
碼包在

http://sourceforge.net/projects/budict/

下的 budict -> 1.3 -> budict-1.3.tar.gz

圖片文件在

budict-rawdata -> budict-images-1.0.tar.gz

數據文件在

budict-rawdata -> budict-data-0.7.tar.gz
已記錄

諸惡莫作
眾善奉行
頁: 1 2 [3]
  列印  
 
前往:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.9 | SMF © 2006-2009, Simple Machines LLC Valid XHTML 1.0! Valid CSS!