linux下的开源简繁转换工具-- cconv (支持词语转换)
源代码可在 http://code.google.com/p/cconv/downloads/list 下载由于linux下广泛使用的iconv只支持单字一一对应转换,cconv在iconv的基础上增加了词语转换功能。
用法与iconv相同,不太了解iconv的朋友,可以先看看:
http://www.gnu.org/software/libiconv/documentation/libiconv/iconv.1.html
安装
到 http://code.google.com/p/cconv/downloads/list 下载最新的源代码文件
$tar zxvf cconv-x.x.x.tar.gz
$cd cconv-x.x.x
$ ./configure --prefix=/usr/local
$ make
$ sudo make install
使用
$ echo "内存, 海内存知己,后天,皇后,街头发钱" | cconv -f utf-8 -t utf8-tw
記憶體, 海內存知己,後天,皇后,街頭發錢
php扩展模块的安装
值得注意的是. php扩展模块依赖于二进制版本的动态链接库,若安装扩展模块,请先安装二进制版本, 确认ldconfig -p能够找到libcconv.so 以及cconv.h头文件能被找到
$tar zxvf cconv-php-x.x.x.tar.gz
$cd cconv-php-x.x.x
$phpize
$./configure
$make
$sudo make install
在php.ini中增加一行:
extension=cconv.so
<?php
$str = "街头发钱;\n在专访中,姚明妙语连珠,透露NBA球员...\n";
echo cconv("utf-8", "utf8-tw", $str);
?>
output:
街頭發錢;
在專訪中,姚明妙語連珠,透露NBA球員...
-----------------------
目前还有一些词语对照表需要整理
对于扩展模块,现在只做了php的, 现在计划陆续推出python perl的。
只是没有太多精力花在支持windows方面,如有兴趣朋友愿意帮忙我将不胜感激。
我的msn:[email protected]
[email protected] 你这个思路是对的,简繁是不能一对一转的,你的词库有多大,可以整句转换么,断词怎么解决,比如
老师范某某
这里是断成
老师 范某某, 还是 老师范 某某? 你想得太过简单,繁对简是多对一,这是当初简化时根本没考虑的问题,lz则很明白这一点。
皇天后土,後來,后,後 都对应后。示範,姓范,都对应范。頭髮,發財,都對應发
甚至還有一種情況,比如著这个字,本身没简化,但用作助词时被着替代了,而著作的著则没有。 词库我看到了。 于,於这个真是蛮讨厌的,不可能人名一一枚举啊 {"云", "雲", -1}, // 云 => 雲
如果碰到“某某云:blah,blah”,这时该怎么办? {"冬冬", "鼕鼕", -1}
如果冬冬是人名,显然又不对了。 {"冷面", "冷麵", -1}
如果冷面孔呢, {"凉面", "涼麵", -1},
举个极端例子
夜深明月笼纱 醉归凉面香斜 犹有惜梅心在 满庭误作吹花
:mrgreen: {"几出", "幾齣", -1}
我搜索了一下,没有“几进几出”
同样还有一出(一齣),二出(二齣)N出(N齣),也都没有一进一出(一進一出),二進二出,N進N出。
[ 本帖最后由 тролль 于 2009-4-12 20:27 编辑 ] 表中术语都翻译了,但像分辨率,台湾分辨率,解析度是不是都用? 专有名词是不是尽量不要大变动,起码字数尽量不变。球证,旁证,裁判,助理裁判,应该也用的。 {"合着者", "合著者", -1},
什么时候有“合着者”这样的用法了? {"哈利王子", "哈利", -1}
這種專有名詞的轉換完全沒有道理