тролль 发表于 2009-4-12 20:58:28

{"哈珊", "薩達姆", -1},

這個是什麽意思?Saddam Hussein,我们媒体称萨达姆,取的是Saddam,对岸一般叫海珊,取的是Hussein那部分,简称萨达姆是更合理些,要知道Hussein不是姓,而是父名。像美联社这样的大通讯社也一般用Saddam。

所以把哈珊转成萨达姆简直是太搞了。

тролль 发表于 2009-4-12 21:04:36


除了饭团,汤团,还可以补充青团、麻团…… 下面这个就是青团

:mrgreen:

тролль 发表于 2009-4-12 21:33:11

{"天後", "天后", -1}

为什么把不规范用词都算进去

тролль 发表于 2009-4-12 21:48:09

{"小丑跳梁", "小醜跳樑", -1},

{"小丑", "小丑", -1}

严格说,丑只有天干之一的解释,但现在小醜多作小丑了,你去查台湾的在线字典好了。

你这份表是哪里来的,wiki?

тролль 发表于 2009-4-12 21:57:22

{"尽人皆智", "盡人皆智", -1}

错别字,错别字。

果然来自中文wiki。

xiaoyjy 发表于 2009-4-13 09:41:19

原帖由 тролль 于 2009-4-12 21:33 发表 http://www.linuxfans.org/bbs/images/common/back.gif
{"天後", "天后", -1}

为什么把不规范用词都算进去

天后这个词,需要另作处理
如果前缀带 “一,二,三,四,五,六,七,八,九,十,1,2,3,4,5,6,7,8,9,0,多,几“ 则转为 天後 否则 为 天后

目前正在开发的版本中,正在进行这一类的处理。

xiaoyjy 发表于 2009-4-13 09:47:11

原帖由 тролль 于 2009-4-12 16:15 发表 http://www.linuxfans.org/bbs/images/common/back.gif
你这个思路是对的,简繁是不能一对一转的,你的词库有多大,可以整句转换么,断词怎么解决,比如

老师范某某

这里是断成

老师 范某某, 还是 老师范 某某? ...

我没有进行分词处理,之前我想过这么做,但后来发现这样出错的机会反而变大了。

比如: “一出“
太阳一出来;
看了一出戏;

这种情况分词之后更加无法处理。

后来,我开始用前缀后缀法进行处理了。

xiaoyjy 发表于 2009-4-13 09:56:57

原帖由 тролль 于 2009-4-12 19:45 发表 http://www.linuxfans.org/bbs/images/common/back.gif
于,於这个真是蛮讨厌的,不可能人名一一枚举啊

这个似乎没有什么好办法。

还有很多词也没有办法处理

比如: 他拿出表来一看,9点了....表字无法处理。

xiaoyjy 发表于 2009-4-13 10:02:20

原帖由 тролль 于 2009-4-12 19:48 发表 http://www.linuxfans.org/bbs/images/common/back.gif
{"云", "雲", -1}, // 云 => 雲

如果碰到“某某云:blah,blah”,这时该怎么办?

这个也不太好处理,比如: 赵云云

在简体中本身就只有在语境中在知道具体意思,可以是指 赵雲云 (赵子龙曰),也可能是某女的叫赵雲雲

xiaoyjy 发表于 2009-4-13 10:10:01

原帖由 тролль 于 2009-4-12 21:04 发表 http://www.linuxfans.org/bbs/images/common/back.gif

除了饭团,汤团,还可以补充青团、麻团…… 下面这个就是青团

:mrgreen:
还有共青团,呵呵!

jiangtao9999 发表于 2009-4-13 10:31:52

难得的技术贴,不过我建议这个转换还是加上人肉转换吧。

比如写一个 GUI 界面,输出一个特殊的格式,所有模糊转换的地方都用特殊颜色标记出来。这样就像 poedit 一样,本身的翻译功能不怎么样,但是有强大的人肉后盾。
:twisted:

тролль 发表于 2009-4-13 18:34:55

要是计算机能理解语义,是不是很可怕的事情?

于,於这个真是蛮讨厌的,不可能人名一一枚举啊

{"于", "於", -1},

{"於", "于", -1},

这个怎么用

更讨厌的是在古籍中,介词的于还不一定要转成於,《诗》、《书》中用“于”,《论》、《孟》中又用“於”,虽然都转成于或於,也不能说错,但排版古籍时,就不适用了。

还有复、復、覆、複,搞得也很复杂,呵呵。

тролль 发表于 2009-4-13 19:28:25

我才意识到是简繁互转,不好意思。

тролль 发表于 2009-4-13 19:50:02

《基于国际标准基本子集的两岸四地简繁异汉字对照表》网络校对平台Beta 2.2

http://hanzi.unihan.com.cn/IICoreExt/

тролль 发表于 2009-4-13 19:53:51

http://lib.hku.hk/ccrcd/1-3.ppt

www.gslib.com.cn/lswx/会议文档/第六次会议ppt/(4)术语数据库-徐引篪.ppt

其中提到的网络版图书资讯术语对照表的链接

http://www.csdl.ac.cn/lis/index.php

是死链接。
页: 1 [2] 3
查看完整版本: linux下的开源简繁转换工具-- cconv (支持词语转换)