QQ登录

只需一步,快速开始

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 3300|回复: 10

libhanzi 1.0 计划书

[复制链接]
发表于 2004-5-5 04:13:00 | 显示全部楼层 |阅读模式
一、libhanzi 是什么
libhanzi 是一个为程序员设计的信息库,其中给出了汉语字词的技术信息。具体来说,汉语字包含了语音和字形两方面信息,汉语词包含了语音和词性两方面信息。程序员通过调用 libhanzi 获取关于汉语特定字词的信息,可以编制出需要的程序,如根据语音、偏旁部首、笔画对汉语字词进行排序,拼写检查,语法检查,各种输入法,TTS 等。

二、libhanzi 不是什么
libhanzi 不是一本字典,也不是一本词典。因为它是一套最底层的开发库,并不是面向最终用户的应用程序。当然,程序员可以基于 libhanzi 开发一套字典或者词典的应用程序,但这与 libhanzi 本身的用途无关。

libhanzi 不是算法,而是信息库。libhanzi 本身不具有应用程序的功能,如排序、拼写检查。这样一种将数据和算法剥离的设计,可以让程序员自行选择最适合的算法来实现相应的功能。当然,我们可以组织人力编写这样的算法,如 libhanzi 的姊妹项目 libzh,但这与 libhanzi 本身无关。

三、libhanzi 1.0 的目标
简单的说,libhanzi 1.0 要完成构造一个基于 GB18030 的汉语汉字信息库。
  • 该信息库包含 GB18030 中的全部汉语汉字(不含少数民族语言)。
  • 每个汉字都正确无误的提供语音和字形两方面信息。
  • 语音方面,分别提供单个汉字语音的声母、韵母、声调。
  • 字形方面,分别提供单个汉字所属的偏旁部首、总计笔画数。
  • 最终使用 XML 作为数据存储格式。
  • 接口函数同时提供C、Perl、Python、XSLT/XPATH共四种语言的等价实现。
  • 此信息库以 GPL 授权放出。[/list:u]
    四、libhanzi 1.0 的实践方案
    • 根据最终数据的内容要求,由运营实体解决汉字信息的基础版权问题。此任务由协调员完成。
    • 根据最终数据的格式要求,编写 B/S 样式的数据灌入界面。此任务由 Web 程序员完成。
    • 组织人力进行汉字信息的灌入。此任务由贡献者完成。
    • 对灌入数据的 10% 进行正确性抽查。此任务由贡献者共同完成。
    • 将全部数据转换为最终格式,此任务由 Web 程序员完成。
    • 编写接口函数的实现。此任务由程序员完成。
    • 正式发布 libhanzi 1.0,并投入 libhanzi 2.0 的运作。[/list]
 楼主| 发表于 2004-5-5 04:16:56 | 显示全部楼层
我先前提到的汉语字词信息库就是这个东西了。

现在需要公社做两件事。一是提供一个简单的Web平台,PHP+Mysql即可。二是委托共创开源联系一下社科院,关于《新华字典》和《现代汉语词典》两本书的版权事宜。如果能够把这两本书的版权解决掉,项目即可立即启动,毫无后顾之忧。当然,如果无法解决版权问题,我们可以采用另外一个途径,从国家标准上想点办法。

大家对项目书还有什么疑问,可以多提意见。咱们争取把前期工作的基础打牢一点。等到项目需要大量人力投入时,我会再写实施细则的。
回复

使用道具 举报

发表于 2004-5-5 14:07:48 | 显示全部楼层
那个……GB18030中有多少个汉字呢?常用的词语又有多少个呢?(比如一个输入法里的)这样有多大的工作量啊~~~~~~~~移山搬海之作啊~~~~~~~
回复

使用道具 举报

 楼主| 发表于 2004-5-5 14:15:53 | 显示全部楼层
这个工作总归是要有人去做的,我们不去做,还指望红旗他们去做吗?

GB18030里面不过只有两三万汉字而已,只有有几十个人,很快就能完成。而且这完全是一个人力活动,不需要任何技术基础。

至于汉语词,是libhanzi 2.0的目标。因为汉语词的目标是弥补多音字造成的语音混淆,以及为语法检查构造基础,相对来讲不是那么紧迫。
回复

使用道具 举报

发表于 2004-5-6 00:54:56 | 显示全部楼层
汗~~
每个人大概要负责几百字吧?但是要做哪些工作呢?而且如果能让人每次都认领很少的任务就好了,不然会有顾虑~
回复

使用道具 举报

发表于 2004-7-26 22:34:43 | 显示全部楼层
我有个建议,就是,老大把那些字分成若干组(每组少一些),有时间精力能力的人就可以认领一组或几组,并注明完成时间。一个组有人认领了就注明状态,不允许其他人再认领。这样大家合作起来,就会很快。也能很快实施。
回复

使用道具 举报

发表于 2004-7-27 01:57:19 | 显示全部楼层
楼上说的对,分成诺干分,每一分都是轻量的,相信大家很快都做完了。
回复

使用道具 举报

发表于 2004-7-27 16:07:15 | 显示全部楼层
每个人多少百个字不是问题,主要问题应该是如何才能保持这些字体笔画位置(注意,是笔画位置)的正确、统一性
回复

使用道具 举报

发表于 2004-7-28 03:07:52 | 显示全部楼层
具体操作要求是什么?
回复

使用道具 举报

发表于 2004-8-19 12:34:42 | 显示全部楼层
chinese.pku.cn/bbs

字形方面,分别提供单个汉字所属的偏旁部首、总计笔画数。

我在北大的中文论坛曾发现有人发明另一种汉字的编码技术:
比如“技”可以按他的编码:提手旁 +上下结构+十+又
他是研究无字库汉字技术的。

每个汉字都正确无误的提供语音和字形两方面信息。
语音方面,分别提供单个汉字语音的声母、韵母、声调。

汉字的读音?不能只考虑普通话,听说粤语的多音字比普通话少多了
都是因为历史原因,汉字优秀但普通话不能让人恭维。
一部 广韵 36汉字字母,几近包含汉字的所有方言发音。
回复

使用道具 举报

发表于 2004-8-19 12:45:22 | 显示全部楼层
http://www.chancezoo.org/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

GMT+8, 2024-5-14 03:11 , Processed in 0.173429 second(s), 15 queries .

© 2021 Powered by Discuz! X3.5.

快速回复 返回顶部 返回列表