CBETA 論壇 Goto CBETA
二月 25, 2018, 08:41:34 下午 *
歡迎光臨, 訪客. 請先 登入註冊一個帳號.

請輸入帳號, 密碼以及預計登入時間
新聞: 即日起歡迎使用 CBETA 新版討論區,本討論區僅供閱讀。
 
   首頁   說明 搜尋 登入 註冊  
頁: 1 [2] 3
  列印  
作者 主題: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd  (閱讀 56801 次)
cbeta
備位版工
四星級
*****
文章: 219


很高興能為您服務


個人網站
« 回覆文章 #15 於: 十月 03, 2008, 07:48:57 下午 »

謝謝您的解釋, 有空我再來試看看.

不知您有沒有使用過 CBETA 做的丁福保佛學辭典 (CHM 格式)?
http://www.cbeta.org/download/cbreader.htm

因為我們的資料比一般看到 EBS 的版本還有更多的處理, 包括 unicode 與 big5 字集的切換,直接連結至其他辭條...等等.

我們的格式也是 HTML 格式, 所以不知適不適合 C5 格式?

我再試試看好了.
已記錄

CBETA 中華電子佛典協會
地址: 11246 台北市北投區光明路276號4樓 
電話: +886-2-28932133
網站: http://www.cbeta.org
電子郵件: service@cbeta.org
贊助資訊: http://www.cbeta.org/donation/index.php
iamone
一星級
*
文章: 11


« 回覆文章 #16 於: 十二月 05, 2008, 08:47:41 上午 »

這個工作太棒了,贊美樓主!

我開始處理dfb詞典是把chm轉換成yaml格式的來處理,

不過既然有標准格式,那麽顯然更合適。

另外,我建議還是使用utf8的統一編碼比較好。

另外,用c來處理文本也不是什麽好主意,太羅嗦了,就這麽點文字,沒必要用c。

我都是使用shell和python來處理這些東西的。

希望能繼續交流。
已記錄
wxy
一星級
*
文章: 21


« 回覆文章 #17 於: 十二月 07, 2008, 07:14:12 下午 »

這個工作太棒了,贊美樓主!

我開始處理dfb詞典是把chm轉換成yaml格式的來處理,

不過既然有標准格式,那麽顯然更合適。

另外,我建議還是使用utf8的統一編碼比較好。

另外,用c來處理文本也不是什麽好主意,太羅嗦了,就這麽點文字,沒必要用c。

我都是使用shell和python來處理這些東西的。

希望能繼續交流。

用大五碼不用統一碼原因有二:

一是所用輸入法是 xcin,大五碼,不是統一碼;
二是大五碼轉統一碼沒問題,反之不一定成立。

用C的原因很簡單,用了近廿年,順手。

這個項目是開源的,歡迎各位大德斧正,可以
以各種形式參予,如報告 Bug,提供 Patch
等等。
已記錄

諸惡莫作
眾善奉行
iamone
一星級
*
文章: 11


« 回覆文章 #18 於: 十二月 09, 2008, 11:25:41 上午 »

我訪問了星際譯王的網站,發現這些工作已經有人做了一部分。也許不如EBS的全。但是也有了一些。

http://stardict.sourceforge.net/cn/Dictionaries_zh_CN.php

本著不重復制造輪子的哲學,我想我們應該把精力集中在整理好別人沒整理過的字典上面。
已記錄
wxy
一星級
*
文章: 21


« 回覆文章 #19 於: 三月 25, 2009, 07:04:08 下午 »

今天更新了 budict,對原詞典中的 <SEEALSO> 標簽
做了鏈接,即在輸出頁面上加了<a href="..."> </a>
這樣可以直接點繫該詞條。下載地址:

http://sourceforge.net/projects/budict/
已記錄

諸惡莫作
眾善奉行
chicman
一星級
*
文章: 11


« 回覆文章 #20 於: 四月 01, 2009, 06:45:10 上午 »

很開心看到漸漸有人投入佛學數位資料跨平台的實作之中。

一般利用電腦做佛學資料的查詢,不外乎利用 CBETA & Fo-Dict 這兩套軟體。 CBETA 用於經文查詢,Fo-Dict 用於詞彙查詢。
但可惜一直都在 Windows Only 的階段,所以學人於 2008 年中也製作 CBETA of FireFox 資料集,但是與專屬應用程式還是相差很多。

最近研讀瑜伽師地論,配合法相辭典以及 CBETA 研習,發現 Fo-Dict 的原始詞典檔還是有些許錯誤,比對出版品看,居然發現錯誤是在出版品上就已經有的!於是著手重新校正法相辭典,建立於 wiki 的平台上。 StarDict 上的法相辭典錯的更離譜,不知道是否有同學對 StarDict Editor 比較熟悉的,是否願意一起轉一份 StarDict 的更新版辭典檔放上 StarDict 網站。

Firefox 是很好的跨平台解決方案,但是執行程式的速率不佳,跑一次全文搜尋也要一陣時間。若是可行,對於 wxy 兄提出的佛學 dict online 我是舉雙手贊成,不知道 CBETA 的伺服器中心是否有 Linux / Unix 主機,或許我們可以在這裡召集一些人馬自願架設此服務。

(做完 CBETA on FF 之後沒有多久就被抓去當兵了,很久沒回來!請見諒。)
已記錄
chicman
一星級
*
文章: 11


« 回覆文章 #21 於: 四月 01, 2009, 06:57:02 上午 »


用大五碼不用統一碼原因有二:

一是所用輸入法是 xcin,大五碼,不是統一碼;
二是大五碼轉統一碼沒問題,反之不一定成立。

用C的原因很簡單,用了近廿年,順手。

這個項目是開源的,歡迎各位大德斧正,可以
以各種形式參予,如報告 Bug,提供 Patch
等等。

wxy 您好
您是習慣使用 xcin 嘛?
我現在處理資料都已經全數使用 utf 8
原因無他:有些佛學難字在 Big5 裡面沒有,只有 utf8 有。
例如:閦、睺
現在只想得起兩字,但缺一字就已經看出了 Big5 的較不適用性。
是否應該全數皆轉換成 UTF8 較好呢?
已記錄
cbeta
備位版工
四星級
*****
文章: 219


很高興能為您服務


個人網站
« 回覆文章 #22 於: 四月 02, 2009, 12:24:20 下午 »

不知道 CBETA 的伺服器中心是否有 Linux / Unix 主機,或許我們可以在這裡召集一些人馬自願架設此服務。

CBETA 主機是租用的虛擬空間,若是 CGI 等資料是可以放置,但若是其他的 "服務" ,可能無法裝設。
已記錄

CBETA 中華電子佛典協會
地址: 11246 台北市北投區光明路276號4樓 
電話: +886-2-28932133
網站: http://www.cbeta.org
電子郵件: service@cbeta.org
贊助資訊: http://www.cbeta.org/donation/index.php
wxy
一星級
*
文章: 21


« 回覆文章 #23 於: 四月 02, 2009, 07:09:26 下午 »


用大五碼不用統一碼原因有二:

一是所用輸入法是 xcin,大五碼,不是統一碼;
二是大五碼轉統一碼沒問題,反之不一定成立。

用C的原因很簡單,用了近廿年,順手。

這個項目是開源的,歡迎各位大德斧正,可以
以各種形式參予,如報告 Bug,提供 Patch
等等。

wxy 您好
您是習慣使用 xcin 嘛?
我現在處理資料都已經全數使用 utf 8
原因無他:有些佛學難字在 Big5 裡面沒有,只有 utf8 有。
例如:閦、睺
現在只想得起兩字,但缺一字就已經看出了 Big5 的較不適用性。
是否應該全數皆轉換成 UTF8 較好呢?

用 xcin 不算是慣用,因為用 rxvt 配合的比較好,速度
也不錯,就一直用著,而且用裡面的倉頡拼形輸入法可以
防止電腦用多了提筆忘字。

用統一碼也許可以解決缺字問題,對於 web-front 應用
也沒什麼問題,因為瀏覽器可以做編碼轉換,對 console-
based的應用可能有問題,要有支持統一碼的輸入法和仿
真終端。對編碼方面不太在行。
已記錄

諸惡莫作
眾善奉行
wxy
一星級
*
文章: 21


« 回覆文章 #24 於: 四月 02, 2009, 07:25:01 下午 »

有關詞典數據,目前想與代碼分離出來。代碼部分用的
是公共領域 (Public Domain) 授權,沒有任何約束。
詞典數據情況有些不同。這段時間考慮過,將佛學詞典
數據文件返還給 EBS,由權威機構來維護和管理。前
些天給 EBS 的顧教授寫過信,談了這個想法。顧教授
說他們人手不夠,建議由 CBETA 來接手。

佛學詞典是比較重要的資源,由個人來維護不太合適,
也不利於做校對。不知 CBETA 是否有意。希望能有
權威機構接手並給予合適的授權,以方便大眾很好地
利用佛學詞典。
已記錄

諸惡莫作
眾善奉行
chicman
一星級
*
文章: 11


« 回覆文章 #25 於: 四月 03, 2009, 06:36:17 上午 »


用 xcin 不算是慣用,因為用 rxvt 配合的比較好,速度
也不錯,就一直用著,而且用裡面的倉頡拼形輸入法可以
防止電腦用多了提筆忘字。

用統一碼也許可以解決缺字問題,對於 web-front 應用
也沒什麼問題,因為瀏覽器可以做編碼轉換,對 console-
based的應用可能有問題,要有支持統一碼的輸入法和仿
真終端。對編碼方面不太在行。


我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
要轉換跑一下 iconv 就好了
iconv -f CP950 -t UTF-8 input

wxy 兄是否可以做一份 unicode 版本的 budict ?


另外我再 CentOS 上無法架設 dictd,執行之後就直接死掉,ps 裡面看都沒有。
請問您是用 FreeBSD 6/7 還是 Linux 架設呢?
已記錄
chicman
一星級
*
文章: 11


« 回覆文章 #26 於: 四月 03, 2009, 06:38:32 上午 »

不知道 CBETA 的伺服器中心是否有 Linux / Unix 主機,或許我們可以在這裡召集一些人馬自願架設此服務。

CBETA 主機是租用的虛擬空間,若是 CGI 等資料是可以放置,但若是其他的 "服務" ,可能無法裝設。

主要還是前端的 web 介面,後端只有一個小程式而已。
不知道是否再台灣租用?只要您有 shell 權限就可以安裝程式。若不行的話也滿好商談,畢竟是小東西(loading 很小)。
板主您可參考 http://dict.tw/ 這個站
已記錄
wxy
一星級
*
文章: 21


« 回覆文章 #27 於: 四月 03, 2009, 07:09:38 下午 »

我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
要轉換跑一下 iconv 就好了
iconv -f CP950 -t UTF-8 input

wxy 兄是否可以做一份 unicode 版本的 budict ?
大五碼可以隨時轉成統一碼,還是先用大五碼,等詞
典校對無誤後再轉統一碼也是可以的。用統一碼可能
不太方便校對吧。

另外我再 CentOS 上無法架設 dictd,執行之後就直接死掉,ps 裡面看都沒有。
請問您是用 FreeBSD 6/7 還是 Linux 架設呢?
是 FreeBSD 6.2,好久沒用 Linux 了,distro 太
多而且越來越大了,不夠簡潔。
已記錄

諸惡莫作
眾善奉行
cbeta
備位版工
四星級
*****
文章: 219


很高興能為您服務


個人網站
« 回覆文章 #28 於: 四月 04, 2009, 01:28:59 上午 »

有關詞典數據,目前想與代碼分離出來。代碼部分用的
是公共領域 (Public Domain) 授權,沒有任何約束。
詞典數據情況有些不同。這段時間考慮過,將佛學詞典
數據文件返還給 EBS,由權威機構來維護和管理。前
些天給 EBS 的顧教授寫過信,談了這個想法。顧教授
說他們人手不夠,建議由 CBETA 來接手。

佛學詞典是比較重要的資源,由個人來維護不太合適,
也不利於做校對。不知 CBETA 是否有意。希望能有
權威機構接手並給予合適的授權,以方便大眾很好地
利用佛學詞典。

談接手實在不敢,我們在技術上的能力可能還不足夠,不過卻是很希望能在這一塊領域也盡一份心力。所以目前不知 wxy 希望我們如何 "接手" ?我只是想到先放在 CBETA 站上,提供大家下載。

我們內部有一些規劃,基本就是整理並維護一些字典檔文件,最好是XML格式,並且提供一些轉換工具,或是轉換後的成果,例如星際譯王的格式,讓各種愛好者能各取所需。

這陣子我們在忙新版光碟,過陣子也會對CBETA網站有一些新的規劃,像是漢字或辭典,都是電子佛典重要的一環,屆時也希望大家能多提供意見,我們也會希望在 CBETA  建立線上佛學辭典的服務,http://dict.tw/ 就是蠻好的示範,而 wiki 的模式也是有在考慮的一環,目的總是希望讓佛學辭典也能漸漸整合,有個良好的維護機制,甚至讓佛學辭典也能不斷有新的成長,像維基百科一般......,總之我們有很多理想,但時間及能力總是有限,很感謝大家不斷地鼓勵與協助。:)


主要還是前端的 web 介面,後端只有一個小程式而已。
不知道是否再台灣租用?只要您有 shell 權限就可以安裝程式。若不行的話也滿好商談,畢竟是小東西(loading 很小)。
板主您可參考 http://dict.tw/ 這個站

我們是在美國 http://www.hostmonster.com/ 租用的空間,台灣的空間都太小了,而且很貴。:P

因為 hostmonster 一台主機同時會有很多租用者,所以寫 CGI 還可以,但若是新的服務,就不知可不可行了。所以我們原先的想法是利用 CGI + MySQL 來進行類似 http://dict.tw/ 的功能 。

希望未來很快可以有一個 http://budadict.cbeta.org 能為大家服務。 ^_^


已記錄

CBETA 中華電子佛典協會
地址: 11246 台北市北投區光明路276號4樓 
電話: +886-2-28932133
網站: http://www.cbeta.org
電子郵件: service@cbeta.org
贊助資訊: http://www.cbeta.org/donation/index.php
chicman
一星級
*
文章: 11


« 回覆文章 #29 於: 四月 06, 2009, 06:19:51 上午 »

我們是在美國 http://www.hostmonster.com/ 租用的空間,台灣的空間都太小了,而且很貴。:P

因為 hostmonster 一台主機同時會有很多租用者,所以寫 CGI 還可以,但若是新的服務,就不知可不可行了。所以我們原先的想法是利用 CGI + MySQL 來進行類似 http://dict.tw/ 的功能 。

希望未來很快可以有一個 http://budadict.cbeta.org 能為大家服務。 ^_^

放在 hostmonster 阿?那就不能掛程式了。
不然我想就用維基也不錯,現在維基有一個子計畫是維基文庫:

已經有人把丁福保的辭典放進去了,不過可想而知一定沒有校對 = =
http://zh.wikisource.org/w/index.php?title=%E4%BD%9B%E5%AD%B8%E5%A4%A7%E8%BE%AD%E5%85%B8&variant=zh-tw

我的想法如下:
  • 在貴站主機設置 dict.cbeta.org
  • 架設 wiki 軟體(要用哪一套可以慢慢評估)
  • wiki 有兩個好處,第一:可以拿來查詢
  • 第二:可以用來作討論校正。
當然,不能像是 wikipedia 那樣子開放。佛法為無上妙法,要讓註冊的人才有編輯與發言權限。等等的控制。

大正藏在標點使用與古今通用字上依然是比較不符合現代人學習,這些佛學辭典也是一樣。
若是可以成功做出 wiki ,我想應該是一個很好的開始。

已記錄
頁: 1 [2] 3
  列印  
 
前往:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.9 | SMF © 2006-2009, Simple Machines LLC Valid XHTML 1.0! Valid CSS!