Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/cbetaorg/forum.cbeta.org/Sources/Load.php(225) : runtime-created function on line 3

Deprecated: preg_replace(): The /e modifier is deprecated, use preg_replace_callback instead in /home/cbetaorg/forum.cbeta.org/Sources/Load.php(225) : runtime-created function on line 3
- 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd

CBETA 論壇

CBETA 討論群組 => CBETA CD , CBReader 討論區 => : wxy June 16, 2008, 07:28:00 PM



: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy June 16, 2008, 07:28:00 PM
前段時間研究了一下DICT協議,寫了一個簡單Code,把佛學字典(EBS)的 .tit 和 .nr 合並,成 C5 格式的字典文件(DICT標準字典檔的一種),再經 dictfmt 轉成 dictd 可用的字典及索引,可以用標準客戶端程序 dict 來訪問了。這樣就可以在 Unix-like 的系統中使用佛學字典了。如果有主機提供訪問,就可以成為線上字典。使用 DICT 標準協議的好處是有許多不同平臺的客戶端 dict 程序可直接使用字典服務。有手機端的客戶程序,也有 Web-front 的客戶端可用瀏覽器來訪問的。

末學已將字典放在 sourceforge 上了,可以在 http://sourceforge.net/projects/budict/ (http://sourceforge.net/projects/budict/) 下載,歡迎大家使用。另在測試中發現字典有亂碼,查了一下,是原始文件就有少量亂碼,所以下一步要做的是校對字典。懇請有 plain text 格式文件的大德惠賜文檔,以便末學校對,去除亂碼,歡迎志願者一同來做校對。

字典使用的 screen snapshot:


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy June 18, 2008, 03:47:58 AM
字典用了壓縮方式,共約14M,連同轉檔程序一起打包。如果手邊
有原 EBS 的字典,可以直接用程序把 .tit 和 .nr 文件轉成標準字
典檔,不必下載14M的打包文件,以節省網絡流量。源碼如下:

:
/*-
 * This program will combine .tit and .nr made by EBS into
 * one c5 format dict file.
 *
 * $Id: fo2dict.c,v 1.1 2008/06/15 02:14:11 wxy Exp $
 */

#include <stdio.h>

int main(int argc, char *argv[])
{
        FILE *f1, *f2;
        char fn1[256], fn2[256];
        int lf, cr, ul;
        int c1, c2, len1, len2, max1, max2, total;
        int i;
        int next;

        lf = (int) '\n';
        cr = (int) '\r';
        ul = (int) '_';
        next = 1;
        len1 = len2 = max1 = max2 = total = 0;

        if (argc != 2) {
                fprintf(stderr, "Usage: %s <file base>\n", argv[0]);
                return 1;
        }
        sprintf(fn1, "%s.tit", argv[1]);
        sprintf(fn2, "%s.nr", argv[1]);
        f1 = fopen(fn1, "r");
        if (NULL == f1) {
                fprintf(stderr, "Open %s failure!\n", fn1);
                return 1;
        }
        f2 = fopen(fn2, "r");
        if (NULL == f2) {
                fprintf(stderr, "Open %s failure!\n", fn2);
                return 1;
        }
        while ((c1 = getc(f1)) != EOF) {
                if (next) {
                        putc(lf, stdout);
                        for (i = 0; i < 5; i++) putc(ul, stdout);
                        putc(lf, stdout);
                        putc(lf, stdout);
                        next = 0;
                }
                if (0 == c1) {
                        total++;
                        putc(lf, stdout);
                        len1 = 0;
                        len2 = 0;
                        while ((c2 = getc(f2)) != EOF) {
                                if (0 == c2) break;
                                if (c2 != cr) putc(c2, stdout);
                                len2++;
                        }
                        max2 = len2 > max2 ? len2 : max2;
                        next = 1;
                        continue;
                }
                len1++;
                max1 = len1 > max1 ? len1 : max1;
                if (c2 != cr) putc(c1, stdout);
        }
        fclose(f1);
        fclose(f2);
        fprintf(stderr, "max len of key: %6d\n", max1);
        fprintf(stderr, "max len of con: %6d\n", max2);
        fprintf(stderr, "total key:      %6d\n", total);
        return 0;
}

README:
:
This project was created to transform Buddhadharma dictionaries
originally made by Electronic Buddhadharma Society (EBS) into
standard dictionary format of DICT protocol. Then dictionaries
can be access by a dictd server remotely or locally. The server
information are as follows:

  dictd 1.10.2/rf on FreeBSD 4.11-RELEASE
  On 127.0.0.1: up 07:45:04, 36 forks (4.6/hour)
 
  Database      Headwords         Index          Data  Uncompressed
  dfb                  31592        484 kB       2995 kB       5617 kB
  chen                  5875         78 kB        250 kB        489 kB
  szfs                  8781        144 kB       1057 kB       2274 kB
  fxcdtb                1045         16 kB        297 kB        646 kB
  fymyj                 1090         15 kB        237 kB        398 kB
  wdhy                  2050         41 kB        818 kB       1522 kB
  english-chinese       9948        181 kB       1245 kB       3019 kB
  fxcd                 14692        272 kB       2552 kB       5623 kB
  zen560                 552         11 kB        222 kB        405 kB
  theravada             1510         29 kB        196 kB        528 kB
  syfy                   571          8 kB        201 kB        330 kB
  yzcj                  1706         52 kB        296 kB        604 kB
  ldgs                  2126        105 kB       1682 kB       2505 kB

About 15M disk size needed in compressed. All .dict.dz and .index
are in data/ directory, and rfc2229.txt in doc/ directory. Later
more documentation will be written include Chinese translation.
Some scripts (dictd.conf, dictd.sh, and so on) are in examples/
directory. In src/ directory, fo2dict.c will convert .tit and .nr
files into standard dictionary format, and then can be processed
by `dictfmt' to make .dict and .index file. The usage is very
simple, compile it as:

% gcc -o fo2dict fo2dict.c

And suppose dfb.tit and dfb.nr are in the same directory, then

% ./fo2dict dfb

Then a C5 dictionary format will be output on stdout, and some
statistic information are shown in stderr. So if you want to save
it as file, just type:

% ./fo2dict dfb > dfb.c5.txt

To make .dict and .index, type

% dictfmt -c5 --allchars --locale zh_TW.Big5 dfb < dfb.c5.txt
INSTALL:
:
Please read README first. Before installing, make sure you have:

* dictd (better version 1.10.2 or later), if not, download it
  http://sourceforge.net/projects/dict/
* Chinese (Big5) input method available, and a terminal that
  can show Chinese characters such as rxvt, if not, please find
  Chinese-Howto documentation on your Unix-like system.

Then unpack the tarball as:

% tar zxvf budict.tar.gz -C /tmp
% cd /tmp/budict/examples
% ./dictd.sh start

To make sure if the dictd is running, try this:

% ps -ax | grep dictd

If you can see it is in the process list, then try:

% dict -I

you will get:

  dictd 1.10.2/rf on FreeBSD 4.11-RELEASE
  On 127.0.0.1: up 04:19:21, 4 forks (0.9/hour)
 
  Database      Headwords         Index          Data  Uncompressed
  dfb                  31592        484 kB       2995 kB       5617 kB
  chen                  5875         78 kB        250 kB        489 kB
  szfs                  8781        144 kB       1057 kB       2274 kB
  fxcdtb                1045         16 kB        297 kB        646 kB
  fymyj                 1090         15 kB        237 kB        398 kB
  wdhy                  2050         41 kB        818 kB       1522 kB
  english-chinese       9948        181 kB       1245 kB       3019 kB
  fxcd                 14692        272 kB       2552 kB       5623 kB
  zen560                 552         11 kB        222 kB        405 kB
  theravada             1510         29 kB        196 kB        528 kB
  syfy                   571          8 kB        201 kB        330 kB
  yzcj                  1706         52 kB        296 kB        604 kB
  ldgs                  2126        105 kB       1682 kB       2505 kB

That means the dictd works correctly, then you can try this:

% dict amitabha

The description of the word will be shown. And sure you can type
in Traditional Chinese characters after `dict'.

N.B.: All the examples supposed that you unpack the tarball in
directory `/tmp/budict', and if you unpack it into another dir,
please change directorys in dictd.conf which announcing the
.dict.dz and .index, and in dictd.sh (-c /tmp/budict/examples).
BTW, the DICTD macro in dictd.sh should also been set to the
right full path in your system because not all of the system
have the same default path.
dictd.conf:
:
database dfb {
        data "/tmp/budict/data/00dfb.dict.dz"
        index "/tmp/budict/data/00dfb.index"
}
database chen {
        data "/tmp/budict/data/01chen.dict.dz"
        index "/tmp/budict/data/01chen.index"
}
database szfs {
        data "/tmp/budict/data/02szfs.dict.dz"
        index "/tmp/budict/data/02szfs.index"
}
database fxcdtb {
        data "/tmp/budict/data/03fxcdtb.dict.dz"
        index "/tmp/budict/data/03fxcdtb.index"
}
database fymyj {
        data "/tmp/budict/data/04fymyj.dict.dz"
        index "/tmp/budict/data/04fymyj.index"
}
database wdhy {
        data "/tmp/budict/data/05wdhy.dict.dz"
        index "/tmp/budict/data/05wdhy.index"
}
database english-chinese {
        data "/tmp/budict/data/06english-chinese.dict.dz"
        index "/tmp/budict/data/06english-chinese.index"
}
database fxcd {
        data "/tmp/budict/data/07fxcd.dict.dz"
        index "/tmp/budict/data/07fxcd.index"
}
database zen560 {
        data "/tmp/budict/data/08560.dict.dz"
        index "/tmp/budict/data/08560.index"
}
database theravada {
        data "/tmp/budict/data/09theravada.dict.dz"
        index "/tmp/budict/data/09theravada.index"
}
database syfy {
        data "/tmp/budict/data/10syfy.dict.dz"
        index "/tmp/budict/data/10syfy.index"
}
database yzcj {
        data "/tmp/budict/data/11yzcj.dict.dz"
        index "/tmp/budict/data/11yzcj.index"
}
database ldgs {
        data "/tmp/budict/data/12ldgs.dict.dz"
        index "/tmp/budict/data/12ldgs.index"
}
dictd.sh:
:
#!/bin/sh

DICTD="/usr/local/sbin/dictd"

case "$1" in
        restart )
                $0 stop
                sleep 2
                $0 start
                ;;
        stop )
                killall dictd
                ;;
        start )
                echo ' Starting dictd service...'
                ${DICTD} -c /tmp/budict/examples/dictd.conf --locale zh_TW.Big5 > /dev/null &
                ;;
esac
ACKNOWLEDGEMENT:
:
The original data is from Electronic Buddhadharma Society (EBS)
and has been transformed into standard dictionary format following
DICT protocol. The transformation was made automatically by
programme. The website of Electronic Buddhadharma Society is:

http://www.baus-ebs.org/

末學所用系統是 FreeBSD,dictd 版本是 1.10.2,轉換成 C5 格式後,可
以在第一個``_____''之上加上上面 ACKNOWLEDGEMENT 內容,將成為
字典的前言聲明。這個 C5 格式的文件是可編輯的字典檔,如內容有誤,可
以編輯修改,確認無誤後,再用 dictfmt 生成 .dict 和 .index 文件。



: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta June 18, 2008, 07:57:24 AM
謝謝 wxy 提供的資料, 因為我們很少用 unix 系統, 所以不清楚相關的資訊.

星際譯王 (http://stardict.sourceforge.net/cn/index.php) 也是不錯的一套軟體, 可以在某些 unix 下執行,
也有 windows 及 mac 的版本, 或許做成這種格式也是不錯的選擇.


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy June 30, 2008, 01:21:04 AM
謝謝 wxy 提供的資料, 因為我們很少用 unix 系統, 所以不清楚相關的資訊.

星際譯王 (http://stardict.sourceforge.net/cn/index.php) 也是不錯的一套軟體, 可以在某些 unix 下執行,
也有 windows 及 mac 的版本, 或許做成這種格式也是不錯的選擇.

不敢當,芹曝之獻,不足道。

星際沒用過,看了網站說明,其字典格式是專有的,近期
開始收費。另其使用圖形界面,有太多的 Features,有
些臃腫,對於僅僅使用文字字典者來說,不用這些特性。

末學創建這個項目初衷,是提供一個可以自由使用的在線
佛學辭典,符合標準 DICT 協議,開放源碼。目前使用的
版權是 Public Domain License,是最自由的一種開源
版權。另外基於 Telnet 方式的 BBS 可以使用字符界面
的標準客戶端程序提供在線字典功能。

剛剛將可編輯的字典文件上傳到
http://sourceforge.net/projects/budict/ (http://sourceforge.net/projects/budict/)
是 C5 格式的 plain text 文件。可以編輯字典內容,
然後用 dictfmt 生成正文和索引。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta June 30, 2008, 04:52:55 PM
的確, 我自己好像也沒用過文字介面的字典, 對於有需要的人, 的確很方便.


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy August 27, 2008, 02:21:07 AM
剛剛加了一個 web-front CGI 代碼,可以用瀏覽器來
查詞。新版放在:

http://sourceforge.net/projects/budict/ (http://sourceforge.net/projects/budict/)

Snapshot 如下:
(http://)
()

Web page 做得比較簡單,不過可以通過修改源碼中的
文件來取得更好的效果。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: 小白角 September 15, 2008, 04:51:22 AM
"這樣就可以在 Unix-like 的系統中使用佛學字典了。如果有主機提供訪問,就可以成為線上字典。使用 DICT 標準協議的好處是有許多不同平臺的客戶端 dict 程序可直接使用字典服務。有手機端的客戶程序,也有 Web-front 的客戶端可用瀏覽器來訪問的。"

太厉害了!这应该就是说可以在手机上看到佛经的意思了,能够提供在线的字典服务,也就是说,可以提供在线的手机浏览佛经的服务了。




: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy September 16, 2008, 02:29:12 AM
在 sourceforge.net 上可以找到手機端的 dict 開源項目,手頭
沒有實驗環境,無法測試。修改一下 charset 的設置,應該可以
用。曾經試過 KDE 中的 kdict,圖形界面的,可以用,不過有個
折行的小問題,這可以通過將 C5 格式辭典內容適當折行來解決。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: 小白角 September 18, 2008, 05:56:30 PM
哦!恩,好的,我已经下载了,谢谢您,我过段时间要自己学习建立KDE下的Apache服务器的,到时候,测试您这个软件,呵呵
正好,我也是KDE,呵呵呵


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy September 22, 2008, 01:58:53 AM
歡迎諸位大德下載使用。如果安裝有問題,可以發郵件給
末學,或者在論壇中垂詢。

這幾天增添了一段新的代碼,dict2fo.c,可以將 C5 格式
的詞典轉成 EBS 的 .tit 和 .nr,這樣就可以共享詞典文
件了。新版本已經上傳至 sourceforge.net 上。

http://sourceforge.net/projects/budict/ (http://sourceforge.net/projects/budict/)

下一步計劃校對詞典,不知”五燈會元”和”閱藏知津”這兩本
書在 cbeta 中是否有已經校對好的電子版?


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: mushroom September 22, 2008, 09:18:08 PM
建議貴站架設線上字典網站,例如: http://dict.cbeta.org

可以在這兒下載 dict.org 的網站前端程式 (PERL 原始碼):
ftp://ftp.dict.org/pub/dict/www/Dict

在 FreeBSD 架設線上字典的步驟,可參閱這篇文章:
DICT@FreeBSD 架設程序 (http://dict.tw/doc/Dict_BSD.htm)


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta September 22, 2008, 11:08:04 PM
建議貴站架設線上字典網站,例如: http://dict.cbeta.org

其實我們一直想好好把現有且能公開的佛學辭典做一個整理,
可惜並沒有太多的時間可以讓我們關注這個層面。

然而您的建議我們也會參考看看,若不是要花費許多時間的工作,
或許會進行測試。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy September 23, 2008, 02:21:23 AM
其實我們一直想好好把現有且能公開的佛學辭典做一個整理,
EBS 已經做好的辭典可以成為一個不錯的基礎,末學已經做
好 fo2dict.c 和 dict2fo.c 可以在 C5 格式和 EBS 格式文
件之間做轉換。C5 格式文件是純文本的,可以編輯,dictd
源碼中 test/ 目錄中有說明,上面兩個代碼中也可以讀到。

若不是要花費許多時間的工作,或許會進行測試。
末學查看過貴站 HTTP 頭信息,是 UNIX 主機上的 Apache,
用來構建在線詞典應該不難。如需測試,末學願助其成。

建議貴站架設線上字典網站,例如: http://dict.cbeta.org

可以在這兒下載 dict.org 的網站前端程式 (PERL 原始碼):
ftp://ftp.dict.org/pub/dict/www/Dict
dict.org 上提供的 Web-front 代碼 Dict(PERL 原始碼),
末學曾看過,需要修改少量代碼,主要是改 charset。末
學寫了一個 CGI 的 C 代碼,實現相同功能的,輸出頁面
用 sed 做過濾,加上相應 html 標簽。當時沒用 dict.org
上的源碼主要原因有二:一是不想用 perl,用 C;二是
整個項目用的是公用領域版權(Public Domain),開源版
權中最自由的一種,而 dict.org 用的是 GPL 版權,限制
比較多。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta October 03, 2008, 02:12:16 AM
我想請教一下, 若我們自己把辭典資料放在 mysql 中, 寫一套 CGI 來查詢 (例如類似星際譯王) , 這樣在使用上有什麼差別嗎?


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy October 04, 2008, 02:14:24 AM
我想請教一下, 若我們自己把辭典資料放在 mysql 中, 寫一套 CGI 來查詢 (例如類似星際譯王) , 這樣在使用上有什麼差別嗎?
從功能上看都可以實現辭典的查詢;從純技術上看,使用
標準字典協議和相應軟件要好一些。mysql 是通用數據庫
軟件,沒有針對字典應用作優化,在存儲上和查找上都不
是最優。

從可操作性上看,使用標準字典協議利於辭典的編輯和校
對。C5 格式的字典檔是普通文件 (plain text),可以方
便用普通編輯軟件進行編輯和校對。如果使用 mysql ,
可能不太方便進行編輯校對(沒用過,僅從原理上推測)。

從協同開放性上看,使用標準字典協議比較好。DICT 協
議是一個標準的 Internet 協議,類似 HTTP,辭典資料
可以用標準的格式,便於交換和共享。

附:C5 文件格式在 dictd 項目中有解釋,大致如下
:
1: comments
2: comments
3: _____
4: word1
5:   definition of word1
6:   other lines of definitions.
7: _____
8: word2
9:   definition of word2
...

在第一個''_____''(連續五個下劃線,在一行的開始)出
現之前,可以寫些辭典說明資料,如出處、作者等;之
後每個''_____''出現,表明一個新詞的開始,後一行是
詞,再後續行都是解釋,直到下一個''_____''出現。本
來在新版的 budict 中應該給出說明,在寫了一段轉換
標準字典為原始字典文件之後。因為那段代碼用了一個
狀態轉換自動機,代碼比較晦澀,沒有寫太多說明性文
字,下一版補上。:-)


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta October 04, 2008, 02:48:57 AM
謝謝您的解釋, 有空我再來試看看.

不知您有沒有使用過 CBETA 做的丁福保佛學辭典 (CHM 格式)?
http://www.cbeta.org/download/cbreader.htm

因為我們的資料比一般看到 EBS 的版本還有更多的處理, 包括 unicode 與 big5 字集的切換,直接連結至其他辭條...等等.

我們的格式也是 HTML 格式, 所以不知適不適合 C5 格式?

我再試試看好了.


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: iamone December 05, 2008, 03:47:41 PM
這個工作太棒了,贊美樓主!

我開始處理dfb詞典是把chm轉換成yaml格式的來處理,

不過既然有標准格式,那麽顯然更合適。

另外,我建議還是使用utf8的統一編碼比較好。

另外,用c來處理文本也不是什麽好主意,太羅嗦了,就這麽點文字,沒必要用c。

我都是使用shell和python來處理這些東西的。

希望能繼續交流。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy December 08, 2008, 02:14:12 AM
這個工作太棒了,贊美樓主!

我開始處理dfb詞典是把chm轉換成yaml格式的來處理,

不過既然有標准格式,那麽顯然更合適。

另外,我建議還是使用utf8的統一編碼比較好。

另外,用c來處理文本也不是什麽好主意,太羅嗦了,就這麽點文字,沒必要用c。

我都是使用shell和python來處理這些東西的。

希望能繼續交流。

用大五碼不用統一碼原因有二:

一是所用輸入法是 xcin,大五碼,不是統一碼;
二是大五碼轉統一碼沒問題,反之不一定成立。

用C的原因很簡單,用了近廿年,順手。

這個項目是開源的,歡迎各位大德斧正,可以
以各種形式參予,如報告 Bug,提供 Patch
等等。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: iamone December 09, 2008, 06:25:41 PM
我訪問了星際譯王的網站,發現這些工作已經有人做了一部分。也許不如EBS的全。但是也有了一些。

http://stardict.sourceforge.net/cn/Dictionaries_zh_CN.php

本著不重復制造輪子的哲學,我想我們應該把精力集中在整理好別人沒整理過的字典上面。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy March 26, 2009, 01:04:08 AM
今天更新了 budict,對原詞典中的 <SEEALSO> 標簽
做了鏈接,即在輸出頁面上加了<a href="..."> </a>
這樣可以直接點繫該詞條。下載地址:

http://sourceforge.net/projects/budict/ (http://sourceforge.net/projects/budict/)


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: chicman April 01, 2009, 01:45:10 PM
很開心看到漸漸有人投入佛學數位資料跨平台的實作之中。

一般利用電腦做佛學資料的查詢,不外乎利用 CBETA & Fo-Dict 這兩套軟體。 CBETA 用於經文查詢,Fo-Dict 用於詞彙查詢。
但可惜一直都在 Windows Only 的階段,所以學人於 2008 年中也製作 CBETA of FireFox 資料集,但是與專屬應用程式還是相差很多。

最近研讀瑜伽師地論,配合法相辭典以及 CBETA 研習,發現 Fo-Dict 的原始詞典檔還是有些許錯誤,比對出版品看,居然發現錯誤是在出版品上就已經有的!於是著手重新校正法相辭典,建立於 wiki 的平台上。 StarDict 上的法相辭典錯的更離譜,不知道是否有同學對 StarDict Editor 比較熟悉的,是否願意一起轉一份 StarDict 的更新版辭典檔放上 StarDict 網站。

Firefox 是很好的跨平台解決方案,但是執行程式的速率不佳,跑一次全文搜尋也要一陣時間。若是可行,對於 wxy 兄提出的佛學 dict online 我是舉雙手贊成,不知道 CBETA 的伺服器中心是否有 Linux / Unix 主機,或許我們可以在這裡召集一些人馬自願架設此服務。

(做完 CBETA on FF 之後沒有多久就被抓去當兵了,很久沒回來!請見諒。)


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: chicman April 01, 2009, 01:57:02 PM

用大五碼不用統一碼原因有二:

一是所用輸入法是 xcin,大五碼,不是統一碼;
二是大五碼轉統一碼沒問題,反之不一定成立。

用C的原因很簡單,用了近廿年,順手。

這個項目是開源的,歡迎各位大德斧正,可以
以各種形式參予,如報告 Bug,提供 Patch
等等。

wxy 您好
您是習慣使用 xcin 嘛?
我現在處理資料都已經全數使用 utf 8
原因無他:有些佛學難字在 Big5 裡面沒有,只有 utf8 有。
例如:閦、睺
現在只想得起兩字,但缺一字就已經看出了 Big5 的較不適用性。
是否應該全數皆轉換成 UTF8 較好呢?


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta April 02, 2009, 07:24:20 PM
不知道 CBETA 的伺服器中心是否有 Linux / Unix 主機,或許我們可以在這裡召集一些人馬自願架設此服務。

CBETA 主機是租用的虛擬空間,若是 CGI 等資料是可以放置,但若是其他的 "服務" ,可能無法裝設。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 03, 2009, 02:09:26 AM

用大五碼不用統一碼原因有二:

一是所用輸入法是 xcin,大五碼,不是統一碼;
二是大五碼轉統一碼沒問題,反之不一定成立。

用C的原因很簡單,用了近廿年,順手。

這個項目是開源的,歡迎各位大德斧正,可以
以各種形式參予,如報告 Bug,提供 Patch
等等。

wxy 您好
您是習慣使用 xcin 嘛?
我現在處理資料都已經全數使用 utf 8
原因無他:有些佛學難字在 Big5 裡面沒有,只有 utf8 有。
例如:閦、睺
現在只想得起兩字,但缺一字就已經看出了 Big5 的較不適用性。
是否應該全數皆轉換成 UTF8 較好呢?

用 xcin 不算是慣用,因為用 rxvt 配合的比較好,速度
也不錯,就一直用著,而且用裡面的倉頡拼形輸入法可以
防止電腦用多了提筆忘字。

用統一碼也許可以解決缺字問題,對於 web-front 應用
也沒什麼問題,因為瀏覽器可以做編碼轉換,對 console-
based的應用可能有問題,要有支持統一碼的輸入法和仿
真終端。對編碼方面不太在行。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 03, 2009, 02:25:01 AM
有關詞典數據,目前想與代碼分離出來。代碼部分用的
是公共領域 (Public Domain) 授權,沒有任何約束。
詞典數據情況有些不同。這段時間考慮過,將佛學詞典
數據文件返還給 EBS,由權威機構來維護和管理。前
些天給 EBS 的顧教授寫過信,談了這個想法。顧教授
說他們人手不夠,建議由 CBETA 來接手。

佛學詞典是比較重要的資源,由個人來維護不太合適,
也不利於做校對。不知 CBETA 是否有意。希望能有
權威機構接手並給予合適的授權,以方便大眾很好地
利用佛學詞典。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: chicman April 03, 2009, 01:36:17 PM

用 xcin 不算是慣用,因為用 rxvt 配合的比較好,速度
也不錯,就一直用著,而且用裡面的倉頡拼形輸入法可以
防止電腦用多了提筆忘字。

用統一碼也許可以解決缺字問題,對於 web-front 應用
也沒什麼問題,因為瀏覽器可以做編碼轉換,對 console-
based的應用可能有問題,要有支持統一碼的輸入法和仿
真終端。對編碼方面不太在行。


我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
要轉換跑一下 iconv 就好了
iconv -f CP950 -t UTF-8 input

wxy 兄是否可以做一份 unicode 版本的 budict ?


另外我再 CentOS 上無法架設 dictd,執行之後就直接死掉,ps 裡面看都沒有。
請問您是用 FreeBSD 6/7 還是 Linux 架設呢?


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: chicman April 03, 2009, 01:38:32 PM
不知道 CBETA 的伺服器中心是否有 Linux / Unix 主機,或許我們可以在這裡召集一些人馬自願架設此服務。

CBETA 主機是租用的虛擬空間,若是 CGI 等資料是可以放置,但若是其他的 "服務" ,可能無法裝設。

主要還是前端的 web 介面,後端只有一個小程式而已。
不知道是否再台灣租用?只要您有 shell 權限就可以安裝程式。若不行的話也滿好商談,畢竟是小東西(loading 很小)。
板主您可參考 http://dict.tw/ 這個站


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 04, 2009, 02:09:38 AM
我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
要轉換跑一下 iconv 就好了
iconv -f CP950 -t UTF-8 input

wxy 兄是否可以做一份 unicode 版本的 budict ?
大五碼可以隨時轉成統一碼,還是先用大五碼,等詞
典校對無誤後再轉統一碼也是可以的。用統一碼可能
不太方便校對吧。

另外我再 CentOS 上無法架設 dictd,執行之後就直接死掉,ps 裡面看都沒有。
請問您是用 FreeBSD 6/7 還是 Linux 架設呢?
是 FreeBSD 6.2,好久沒用 Linux 了,distro 太
多而且越來越大了,不夠簡潔。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta April 04, 2009, 08:28:59 AM
有關詞典數據,目前想與代碼分離出來。代碼部分用的
是公共領域 (Public Domain) 授權,沒有任何約束。
詞典數據情況有些不同。這段時間考慮過,將佛學詞典
數據文件返還給 EBS,由權威機構來維護和管理。前
些天給 EBS 的顧教授寫過信,談了這個想法。顧教授
說他們人手不夠,建議由 CBETA 來接手。

佛學詞典是比較重要的資源,由個人來維護不太合適,
也不利於做校對。不知 CBETA 是否有意。希望能有
權威機構接手並給予合適的授權,以方便大眾很好地
利用佛學詞典。

談接手實在不敢,我們在技術上的能力可能還不足夠,不過卻是很希望能在這一塊領域也盡一份心力。所以目前不知 wxy 希望我們如何 "接手" ?我只是想到先放在 CBETA 站上,提供大家下載。

我們內部有一些規劃,基本就是整理並維護一些字典檔文件,最好是XML格式,並且提供一些轉換工具,或是轉換後的成果,例如星際譯王的格式,讓各種愛好者能各取所需。

這陣子我們在忙新版光碟,過陣子也會對CBETA網站有一些新的規劃,像是漢字或辭典,都是電子佛典重要的一環,屆時也希望大家能多提供意見,我們也會希望在 CBETA  建立線上佛學辭典的服務,http://dict.tw/ 就是蠻好的示範,而 wiki 的模式也是有在考慮的一環,目的總是希望讓佛學辭典也能漸漸整合,有個良好的維護機制,甚至讓佛學辭典也能不斷有新的成長,像維基百科一般......,總之我們有很多理想,但時間及能力總是有限,很感謝大家不斷地鼓勵與協助。:)


主要還是前端的 web 介面,後端只有一個小程式而已。
不知道是否再台灣租用?只要您有 shell 權限就可以安裝程式。若不行的話也滿好商談,畢竟是小東西(loading 很小)。
板主您可參考 http://dict.tw/ 這個站

我們是在美國 http://www.hostmonster.com/ 租用的空間,台灣的空間都太小了,而且很貴。:P

因為 hostmonster 一台主機同時會有很多租用者,所以寫 CGI 還可以,但若是新的服務,就不知可不可行了。所以我們原先的想法是利用 CGI + MySQL 來進行類似 http://dict.tw/ 的功能 。

希望未來很快可以有一個 http://budadict.cbeta.org 能為大家服務。 ^_^




: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: chicman April 06, 2009, 01:19:51 PM
我們是在美國 http://www.hostmonster.com/ 租用的空間,台灣的空間都太小了,而且很貴。:P

因為 hostmonster 一台主機同時會有很多租用者,所以寫 CGI 還可以,但若是新的服務,就不知可不可行了。所以我們原先的想法是利用 CGI + MySQL 來進行類似 http://dict.tw/ 的功能 。

希望未來很快可以有一個 http://budadict.cbeta.org 能為大家服務。 ^_^

放在 hostmonster 阿?那就不能掛程式了。
不然我想就用維基也不錯,現在維基有一個子計畫是維基文庫:

已經有人把丁福保的辭典放進去了,不過可想而知一定沒有校對 = =
http://zh.wikisource.org/w/index.php?title=%E4%BD%9B%E5%AD%B8%E5%A4%A7%E8%BE%AD%E5%85%B8&variant=zh-tw

我的想法如下:
  • 在貴站主機設置 dict.cbeta.org
  • 架設 wiki 軟體(要用哪一套可以慢慢評估)
  • wiki 有兩個好處,第一:可以拿來查詢
  • 第二:可以用來作討論校正。
當然,不能像是 wikipedia 那樣子開放。佛法為無上妙法,要讓註冊的人才有編輯與發言權限。等等的控制。

大正藏在標點使用與古今通用字上依然是比較不符合現代人學習,這些佛學辭典也是一樣。
若是可以成功做出 wiki ,我想應該是一個很好的開始。



: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 07, 2009, 09:35:25 PM
談接手實在不敢,我們在技術上的能力可能還不足夠,不過卻是很希望能在這一塊領域也盡一份心力。所以目前不知 wxy 希望我們如何 "接手" ?我只是想到先放在 CBETA 站上,提供大家下載。

十分感謝貴協會接手,主要想法有二:
一是請協會給出一個合適的版權聲明。末學的項目用的
公有領域 (Public Domain) 版權,對代碼來說挺合適,
但對辭典數據文件未必合適。辭典數據如果任意修改不
太好,所以請協會來給一個好一些的,協會在佛典電子
化方做了許多工作,有這方面的經驗。
二是請協會把辭典文件放在站上,提供下載。末學將把
這些文件從 budict 項目中移出。這些辭典文件都是 C5
格式的 plain text 文件,大約有 14M 左右。

如果協會能有計劃校對辭典就更好了,末學願提供幫助。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 07, 2009, 09:51:13 PM
我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
要轉換跑一下 iconv 就好了
iconv -f CP950 -t UTF-8 input

wxy 兄是否可以做一份 unicode 版本的 budict ?

另外我再 CentOS 上無法架設 dictd,執行之後就直接死掉,ps 裡面看都沒有。
請問您是用 FreeBSD 6/7 還是 Linux 架設呢?

如果希望使用 unicode 版,可以先將 C5 格式的
辭典數據 (目前 budict 上有) 用 iconv 轉換成 utf8
編碼的,然後用 dictfmt 生成 .data.dz 和 .index

% env LC_ALL=utf8 dictfmt -c5 --utf8 demo < demo.c5.txt

再用以下參數啟動 dictd

# env LC_ALL=utf8 dictd

如果使用的 console 支持 utf8 可以直接查。
如果用 web-front 要把 ph1.html 輸出中 big5 編碼
換成 utf8 編碼,大致就可以了。您可以試試。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: cbeta April 08, 2009, 07:33:28 PM
因為 CBETA 光碟又進入最後的階段,這些建議我們大概會在光碟完成後接著進行,目前暫時無法有太多的考量,僅能暫時簡單回應一些想法:

我的想法如下:
  • 在貴站主機設置 dict.cbeta.org
  • 架設 wiki 軟體(要用哪一套可以慢慢評估)
  • wiki 有兩個好處,第一:可以拿來查詢
  • 第二:可以用來作討論校正。
當然,不能像是 wikipedia 那樣子開放。佛法為無上妙法,要讓註冊的人才有編輯與發言權限。等等的控制。

這個想法也很好,其實我們也有想過可以分別架設
http://dict.cbeta.org
http://wiki.cbeta.org

只是要如何區分功能及如何充份應用, 都有待進一步討論.

十分感謝貴協會接手,主要想法有二:
一是請協會給出一個合適的版權聲明。末學的項目用的
公有領域 (Public Domain) 版權,對代碼來說挺合適,
但對辭典數據文件未必合適。辭典數據如果任意修改不
太好,所以請協會來給一個好一些的,協會在佛典電子
化方做了許多工作,有這方面的經驗。
二是請協會把辭典文件放在站上,提供下載。末學將把
這些文件從 budict 項目中移出。這些辭典文件都是 C5
格式的 plain text 文件,大約有 14M 左右。
如果協會能有計劃校對辭典就更好了,末學願提供幫助。

我們對版權也不是很有經驗,目前 CBETA 主要的版權說明可以參考此頁:
http://www.cbeta.org/copyright.htm (http://www.cbeta.org/copyright.htm)
原則上我們也是希望資料能免費自由流通,但不希望使用者自行修改文字,但對於格式及標點或明顯的小錯誤,又不願限制使用者,所以才有上述的版權說明。

提供文件原始格式及各種應用的格式下載,我們是很樂意的,不過要等一陣子才行,最近因為光碟的事,大概沒時間處理這方面了。

先感謝大家熱心協助,並歡迎持續給我們建議。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 27, 2009, 03:39:02 AM
wxy 兄是否可以做一份 unicode 版本的 budict ?
前些天試著用了 iconv 轉碼,發現辭典數據並非純
Big5 (1984版) 編碼,而是微軟版的 Big5 編碼,也
即 iconv 中的 cp950。另有些無法轉碼的情況:

1. 亂碼。有好幾處。其中丁福保大辭典根據 cbeta
   提供的一版做了部份修正,其他以●代替。
2. 中文符號,如數字外加一個圓圈,以數字加括號
   代替。
3. 中文符號,如全角的 [],以西文 [] 代替。
4. 日文符號,以●代替,有幾處。

經過幾百次的 iconv,終於將十三個辭典數據轉碼
完畢,其中法相辭典和英英辭典與原始文件一致,
沒有任何變動。

因目前旅居澳洲,手頭沒有紙本書做校對,做了如
許多變更心裡很犹豫,昨天上傳至 sourceforge
上至一半時出了網絡故障,更覺不安。沒有紙本書
的依據來修改佛學辭典很不妥,所以今天又撤銷了
新版數據。如果您需要,可以發郵件給您,僅作為
個人交流,不擔負任何責任。

我還是建議使用 unicode 來做呈現。
目前碰過大約有十個字是 big5 沒有而 unicode 有的。
一者世界通用、二者潮流所趨、三者字數夠多。
從辭典的使用上來看,統一碼應該是一種比較好
的選擇,甚至可能是唯一的選擇。佛學辭典中還
有一些梵文和日文,不用統一碼很難解決。

用大五碼過渡一段時間也是一種無奈的選擇,要
考慮一些老舊系統和非主流系統尚不完全支持統
一碼,統一碼要一統尚需時日。

從文字角度看,缺字似乎不是使用統一碼的必
需理由。缺字問題出現似乎不屬技術問題,有
些異體字需要文字學者來做一些規範。有些異
體字是俗體字,可以考慮采用正體。漢代許慎
的說文解字僅有九千多字,但到了清代康熙字
典就有幾萬字。異體字的出現會帶來一些技術
上棘手的處理,如做檢索時就不能僅根據編碼
來做分詞,要考慮意同字不同的情況。希望能
對佛經中文字做些規範,以唐宋時善本為依據,
去除手寫本中的一些異體字。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy April 27, 2009, 03:44:23 AM
我們對版權也不是很有經驗,目前 CBETA 主要的版權說明可以參考此頁:
http://www.cbeta.org/copyright.htm (http://www.cbeta.org/copyright.htm)
原則上我們也是希望資料能免費自由流通,但不希望使用者自行修改文字,但對於格式及標點或明顯的小錯誤,又不願限制使用者,所以才有上述的版權說明。

提供文件原始格式及各種應用的格式下載,我們是很樂意的,不過要等一陣子才行,最近因為光碟的事,大概沒時間處理這方面了。

先感謝大家熱心協助,並歡迎持續給我們建議。

看了協會的版權聲明,很適合佛經類資料。請
您空閑下來,通知末學,把佛學辭典數據轉由
協會維護,讓您費心了。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: iamone May 13, 2009, 05:21:49 PM
我自己下了这些词典,也都转换成utf8使用了,

最终感想就是乱。

希望能把这些东西用在wiki上,大家有机会慢慢修改成准确的东西。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy June 22, 2009, 12:37:56 AM
準備先從丁福保佛學辭典入手,做些整理
和校對的工作。


: 回覆: 已將佛學字典(EBS)轉成標準字典檔(DICT Protocol),可用於Unix-like系統中的dictd
: wxy December 02, 2009, 11:07:43 PM
前些天偶爾看到佛學辭典中有圖片標簽,<PIC>...</PIC>
絕大多數來自丁福保佛學大辭典。順手在 filter.sed 文
件中又加了一項,這樣就可以在查詢出來有圖片的詞條中
看到圖片了,見附件截圖。

新版剛剛上傳到 sourceforge 上了,又把圖片文件打包
放了上去,同時把所有詞典文件打包上傳了,這樣需要全
部詞典就可以一次下載下來,不必一個一個地下載了。源
碼包在

http://sourceforge.net/projects/budict/ (http://sourceforge.net/projects/budict/)

下的 budict -> 1.3 -> budict-1.3.tar.gz

圖片文件在

budict-rawdata -> budict-images-1.0.tar.gz

數據文件在

budict-rawdata -> budict-data-0.7.tar.gz


Sorry, the copyright must be in the template.
Please notify this forum's administrator that this site is missing the copyright message for SMF so they can rectify the situation. Display of copyright is a legal requirement. For more information on this please visit the Simple Machines website.