тролль
发表于 2009-4-12 20:58:28
{"哈珊", "薩達姆", -1},
這個是什麽意思?Saddam Hussein,我们媒体称萨达姆,取的是Saddam,对岸一般叫海珊,取的是Hussein那部分,简称萨达姆是更合理些,要知道Hussein不是姓,而是父名。像美联社这样的大通讯社也一般用Saddam。
所以把哈珊转成萨达姆简直是太搞了。
тролль
发表于 2009-4-12 21:04:36
糰
除了饭团,汤团,还可以补充青团、麻团…… 下面这个就是青团
:mrgreen:
тролль
发表于 2009-4-12 21:33:11
{"天後", "天后", -1}
为什么把不规范用词都算进去
тролль
发表于 2009-4-12 21:48:09
{"小丑跳梁", "小醜跳樑", -1},
{"小丑", "小丑", -1}
严格说,丑只有天干之一的解释,但现在小醜多作小丑了,你去查台湾的在线字典好了。
你这份表是哪里来的,wiki?
тролль
发表于 2009-4-12 21:57:22
{"尽人皆智", "盡人皆智", -1}
错别字,错别字。
果然来自中文wiki。
xiaoyjy
发表于 2009-4-13 09:41:19
原帖由 тролль 于 2009-4-12 21:33 发表 http://www.linuxfans.org/bbs/images/common/back.gif
{"天後", "天后", -1}
为什么把不规范用词都算进去
天后这个词,需要另作处理
如果前缀带 “一,二,三,四,五,六,七,八,九,十,1,2,3,4,5,6,7,8,9,0,多,几“ 则转为 天後 否则 为 天后
目前正在开发的版本中,正在进行这一类的处理。
xiaoyjy
发表于 2009-4-13 09:47:11
原帖由 тролль 于 2009-4-12 16:15 发表 http://www.linuxfans.org/bbs/images/common/back.gif
你这个思路是对的,简繁是不能一对一转的,你的词库有多大,可以整句转换么,断词怎么解决,比如
老师范某某
这里是断成
老师 范某某, 还是 老师范 某某? ...
我没有进行分词处理,之前我想过这么做,但后来发现这样出错的机会反而变大了。
比如: “一出“
太阳一出来;
看了一出戏;
这种情况分词之后更加无法处理。
后来,我开始用前缀后缀法进行处理了。
xiaoyjy
发表于 2009-4-13 09:56:57
原帖由 тролль 于 2009-4-12 19:45 发表 http://www.linuxfans.org/bbs/images/common/back.gif
于,於这个真是蛮讨厌的,不可能人名一一枚举啊
这个似乎没有什么好办法。
还有很多词也没有办法处理
比如: 他拿出表来一看,9点了....表字无法处理。
xiaoyjy
发表于 2009-4-13 10:02:20
原帖由 тролль 于 2009-4-12 19:48 发表 http://www.linuxfans.org/bbs/images/common/back.gif
{"云", "雲", -1}, // 云 => 雲
如果碰到“某某云:blah,blah”,这时该怎么办?
这个也不太好处理,比如: 赵云云
在简体中本身就只有在语境中在知道具体意思,可以是指 赵雲云 (赵子龙曰),也可能是某女的叫赵雲雲
xiaoyjy
发表于 2009-4-13 10:10:01
原帖由 тролль 于 2009-4-12 21:04 发表 http://www.linuxfans.org/bbs/images/common/back.gif
糰
除了饭团,汤团,还可以补充青团、麻团…… 下面这个就是青团
:mrgreen:
还有共青团,呵呵!
jiangtao9999
发表于 2009-4-13 10:31:52
难得的技术贴,不过我建议这个转换还是加上人肉转换吧。
比如写一个 GUI 界面,输出一个特殊的格式,所有模糊转换的地方都用特殊颜色标记出来。这样就像 poedit 一样,本身的翻译功能不怎么样,但是有强大的人肉后盾。
:twisted:
тролль
发表于 2009-4-13 18:34:55
要是计算机能理解语义,是不是很可怕的事情?
于,於这个真是蛮讨厌的,不可能人名一一枚举啊
{"于", "於", -1},
{"於", "于", -1},
这个怎么用
更讨厌的是在古籍中,介词的于还不一定要转成於,《诗》、《书》中用“于”,《论》、《孟》中又用“於”,虽然都转成于或於,也不能说错,但排版古籍时,就不适用了。
还有复、復、覆、複,搞得也很复杂,呵呵。
тролль
发表于 2009-4-13 19:28:25
我才意识到是简繁互转,不好意思。
тролль
发表于 2009-4-13 19:50:02
《基于国际标准基本子集的两岸四地简繁异汉字对照表》网络校对平台Beta 2.2
http://hanzi.unihan.com.cn/IICoreExt/
тролль
发表于 2009-4-13 19:53:51
http://lib.hku.hk/ccrcd/1-3.ppt
www.gslib.com.cn/lswx/会议文档/第六次会议ppt/(4)术语数据库-徐引篪.ppt
其中提到的网络版图书资讯术语对照表的链接
http://www.csdl.ac.cn/lis/index.php
是死链接。