libhanzi 1.0 计划书

mandrakechina · 发表于 2004-5-5 04:13:00

一、libhanzi 是什么
libhanzi 是一个为程序员设计的信息库，其中给出了汉语字词的技术信息。具体来说，汉语字包含了语音和字形两方面信息，汉语词包含了语音和词性两方面信息。程序员通过调用 libhanzi 获取关于汉语特定字词的信息，可以编制出需要的程序，如根据语音、偏旁部首、笔画对汉语字词进行排序，拼写检查，语法检查，各种输入法，TTS 等。

二、libhanzi 不是什么
libhanzi 不是一本字典，也不是一本词典。因为它是一套最底层的开发库，并不是面向最终用户的应用程序。当然，程序员可以基于 libhanzi 开发一套字典或者词典的应用程序，但这与 libhanzi 本身的用途无关。

libhanzi 不是算法，而是信息库。libhanzi 本身不具有应用程序的功能，如排序、拼写检查。这样一种将数据和算法剥离的设计，可以让程序员自行选择最适合的算法来实现相应的功能。当然，我们可以组织人力编写这样的算法，如 libhanzi 的姊妹项目 libzh，但这与 libhanzi 本身无关。

三、libhanzi 1.0 的目标
简单的说，libhanzi 1.0 要完成构造一个基于 GB18030 的汉语汉字信息库。

该信息库包含 GB18030 中的全部汉语汉字(不含少数民族语言)。
每个汉字都正确无误的提供语音和字形两方面信息。
语音方面，分别提供单个汉字语音的声母、韵母、声调。
字形方面，分别提供单个汉字所属的偏旁部首、总计笔画数。
最终使用 XML 作为数据存储格式。
接口函数同时提供C、Perl、Python、XSLT/XPATH共四种语言的等价实现。
此信息库以 GPL 授权放出。[/list:u]
四、libhanzi 1.0 的实践方案
- 根据最终数据的内容要求，由运营实体解决汉字信息的基础版权问题。此任务由协调员完成。
- 根据最终数据的格式要求，编写 B/S 样式的数据灌入界面。此任务由 Web 程序员完成。
- 组织人力进行汉字信息的灌入。此任务由贡献者完成。
- 对灌入数据的 10% 进行正确性抽查。此任务由贡献者共同完成。
- 将全部数据转换为最终格式，此任务由 Web 程序员完成。
- 编写接口函数的实现。此任务由程序员完成。
- 正式发布 libhanzi 1.0，并投入 libhanzi 2.0 的运作。[/list]

mandrakechina · 发表于 2004-5-5 04:16:56

我先前提到的汉语字词信息库就是这个东西了。

现在需要公社做两件事。一是提供一个简单的Web平台，PHP+Mysql即可。二是委托共创开源联系一下社科院，关于《新华字典》和《现代汉语词典》两本书的版权事宜。如果能够把这两本书的版权解决掉，项目即可立即启动，毫无后顾之忧。当然，如果无法解决版权问题，我们可以采用另外一个途径，从国家标准上想点办法。

大家对项目书还有什么疑问，可以多提意见。咱们争取把前期工作的基础打牢一点。等到项目需要大量人力投入时，我会再写实施细则的。

sjinny · 发表于 2004-5-5 14:07:48

那个……GB18030中有多少个汉字呢？常用的词语又有多少个呢？（比如一个输入法里的）这样有多大的工作量啊~~~~~~~~移山搬海之作啊~~~~~~~

mandrakechina · 发表于 2004-5-5 14:15:53

这个工作总归是要有人去做的，我们不去做，还指望红旗他们去做吗？

GB18030里面不过只有两三万汉字而已，只有有几十个人，很快就能完成。而且这完全是一个人力活动，不需要任何技术基础。

至于汉语词，是libhanzi 2.0的目标。因为汉语词的目标是弥补多音字造成的语音混淆，以及为语法检查构造基础，相对来讲不是那么紧迫。

sjinny · 发表于 2004-5-6 00:54:56

汗~~
每个人大概要负责几百字吧？但是要做哪些工作呢？而且如果能让人每次都认领很少的任务就好了，不然会有顾虑~

greenapple · 发表于 2004-7-26 22:34:43

我有个建议，就是，老大把那些字分成若干组（每组少一些），有时间精力能力的人就可以认领一组或几组，并注明完成时间。一个组有人认领了就注明状态，不允许其他人再认领。这样大家合作起来，就会很快。也能很快实施。

雪落无影 · 发表于 2004-7-27 01:57:19

楼上说的对,分成诺干分，每一分都是轻量的，相信大家很快都做完了。

caihua · 发表于 2004-7-27 16:07:15

每个人多少百个字不是问题，主要问题应该是如何才能保持这些字体笔画位置(注意，是笔画位置)的正确、统一性

BestMarine · 发表于 2004-7-28 03:07:52

具体操作要求是什么？

chaobill · 发表于 2004-8-19 12:34:42

chinese.pku.cn/bbs

字形方面，分别提供单个汉字所属的偏旁部首、总计笔画数。

我在北大的中文论坛曾发现有人发明另一种汉字的编码技术：
比如“技”可以按他的编码：提手旁 +上下结构+十+又
他是研究无字库汉字技术的。

每个汉字都正确无误的提供语音和字形两方面信息。
语音方面，分别提供单个汉字语音的声母、韵母、声调。

汉字的读音？不能只考虑普通话，听说粤语的多音字比普通话少多了
都是因为历史原因，汉字优秀但普通话不能让人恭维。
一部广韵 36汉字字母，几近包含汉字的所有方言发音。

chaobill · 发表于 2004-8-19 12:45:22

http://www.chancezoo.org/

		自动登录	找回密码
密码			注册