xiaoyjy 发表于 2009-4-10 21:20:00

linux下的开源简繁转换工具-- cconv (支持词语转换)

源代码可在 http://code.google.com/p/cconv/downloads/list 下载

由于linux下广泛使用的iconv只支持单字一一对应转换,cconv在iconv的基础上增加了词语转换功能。

用法与iconv相同,不太了解iconv的朋友,可以先看看:
http://www.gnu.org/software/libiconv/documentation/libiconv/iconv.1.html

安装
到 http://code.google.com/p/cconv/downloads/list 下载最新的源代码文件
$tar zxvf cconv-x.x.x.tar.gz
$cd cconv-x.x.x
$ ./configure --prefix=/usr/local
$ make
$ sudo make install

使用
$ echo "内存, 海内存知己,后天,皇后,街头发钱" | cconv -f utf-8 -t utf8-tw
記憶體, 海內存知己,後天,皇后,街頭發錢

php扩展模块的安装
值得注意的是. php扩展模块依赖于二进制版本的动态链接库,若安装扩展模块,请先安装二进制版本, 确认ldconfig -p能够找到libcconv.so 以及cconv.h头文件能被找到

$tar zxvf cconv-php-x.x.x.tar.gz
$cd cconv-php-x.x.x
$phpize
$./configure
$make
$sudo make install

在php.ini中增加一行:
extension=cconv.so

<?php
$str = "街头发钱;\n在专访中,姚明妙语连珠,透露NBA球员...\n";
echo cconv("utf-8", "utf8-tw", $str);
?>
output:
街頭發錢;
在專訪中,姚明妙語連珠,透露NBA球員...

-----------------------
目前还有一些词语对照表需要整理

对于扩展模块,现在只做了php的, 现在计划陆续推出python perl的。
只是没有太多精力花在支持windows方面,如有兴趣朋友愿意帮忙我将不胜感激。

我的msn:[email protected]
[email protected]

тролль 发表于 2009-4-12 16:15:35

你这个思路是对的,简繁是不能一对一转的,你的词库有多大,可以整句转换么,断词怎么解决,比如

老师范某某

这里是断成

老师 范某某, 还是 老师范 某某?

whistler_wmz 发表于 2009-4-12 19:06:53

тролль 发表于 2009-4-12 19:21:32

你想得太过简单,繁对简是多对一,这是当初简化时根本没考虑的问题,lz则很明白这一点。

皇天后土,後來,后,後 都对应后。示範,姓范,都对应范。頭髮,發財,都對應发

甚至還有一種情況,比如著这个字,本身没简化,但用作助词时被着替代了,而著作的著则没有。

тролль 发表于 2009-4-12 19:38:57

词库我看到了。

тролль 发表于 2009-4-12 19:45:09

于,於这个真是蛮讨厌的,不可能人名一一枚举啊

тролль 发表于 2009-4-12 19:48:05

{"云", "雲", -1}, // 云 => 雲

如果碰到“某某云:blah,blah”,这时该怎么办?

тролль 发表于 2009-4-12 20:01:06

{"冬冬", "鼕鼕", -1}

如果冬冬是人名,显然又不对了。

тролль 发表于 2009-4-12 20:04:01

{"冷面", "冷麵", -1}

如果冷面孔呢,

тролль 发表于 2009-4-12 20:10:27

{"凉面", "涼麵", -1},

举个极端例子

夜深明月笼纱 醉归凉面香斜 犹有惜梅心在 满庭误作吹花

:mrgreen:

тролль 发表于 2009-4-12 20:12:21

{"几出", "幾齣", -1}

我搜索了一下,没有“几进几出”

同样还有一出(一齣),二出(二齣)N出(N齣),也都没有一进一出(一進一出),二進二出,N進N出。

[ 本帖最后由 тролль 于 2009-4-12 20:27 编辑 ]

тролль 发表于 2009-4-12 20:15:40

表中术语都翻译了,但像分辨率,台湾分辨率,解析度是不是都用?

тролль 发表于 2009-4-12 20:24:14

专有名词是不是尽量不要大变动,起码字数尽量不变。球证,旁证,裁判,助理裁判,应该也用的。

тролль 发表于 2009-4-12 20:38:36

{"合着者", "合著者", -1},

什么时候有“合着者”这样的用法了?

тролль 发表于 2009-4-12 20:46:35

{"哈利王子", "哈利", -1}

這種專有名詞的轉換完全沒有道理
页: [1] 2 3
查看完整版本: linux下的开源简繁转换工具-- cconv (支持词语转换)