QQ登录

只需一步,快速开始

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 2657|回复: 21

如果搞一个中文字词库的超级大项目,会有人参加吗?

[复制链接]
发表于 2004-3-16 00:52:39 | 显示全部楼层 |阅读模式
其实这个项目我考虑很久了。

现在 Linux 上对中文的支持远没有到可以投入桌面使用的程度。比较重要的一个东西,就是没有GPL的中文字词库。基于现成的字库,可以做出很好的汉字排序算法(拼音、偏旁、笔画随便你),也可以很方便的生成按拼音或笔画排序的术语表。基于现成的词库,可以做出很好的拼写检查程序。当然,字词库本身就可以成为一个超大型的软件,为星际译王等程序所用。

总体来说,这个项目是一个体力活,而不是技术活,只是需要大量人力的投入。如果以公社的名义启动这个项目的话,再辅以校园联络员的强大号召力,可能在开源事业上做一点实事。

如果需要的话,我可以马上拟一份计划书。
发表于 2004-3-16 00:56:53 | 显示全部楼层
不再多说什么了。
无条件支持……
回复

使用道具 举报

发表于 2004-3-16 01:05:57 | 显示全部楼层
功德无量啊
回复

使用道具 举报

发表于 2004-3-16 13:04:45 | 显示全部楼层
mandrakechina, 你要有精神准备哦,到时候精神支持的人很多……
回复

使用道具 举报

发表于 2004-3-16 13:09:35 | 显示全部楼层
就是,到时候我也精神支持。
有时间就好了……
回复

使用道具 举报

 楼主| 发表于 2004-3-16 13:13:05 | 显示全部楼层
所以我要先做好调查,究竟有多少人是愿意坐享其成的,有多少人是愿意做一点事情的。因为这个项目实在没有什么技术难度,只是需要庞大的人工而已,任何人都可以参与。

其实,现在GB18030的汉字库只有几万字而已,如果有一百个人,每个人负责几百个字,很快就能成功。但如果只有不到十个人的话,自然是要等到猴年马月了。项目一期目标是要做出遵循18030的字典,二期目标才是做出词典。
回复

使用道具 举报

发表于 2004-3-16 13:18:28 | 显示全部楼层
mandrakechina,就算能招募到100人,那做一个字大概要多久呢?
把这些说清楚,可能会有更多的人来量力而行。 :-)
回复

使用道具 举报

 楼主| 发表于 2004-3-16 14:54:37 | 显示全部楼层
[quote:b3608994d8="Bluedata"]mandrakechina,就算能招募到100人,那做一个字大概要多久呢?把这些说清楚,可能会有更多的人来量力而行。 :-)[/quote]
这个就要涉及到项目计划书的内容了。现在我大致的想法是,分两期计划。第一期做字典,第二期做词典。字典的部分,要把一个汉字自身的特性描述清楚,包括发音(声母、韵母、声调)和字形(笔划数,偏旁部首),其实就是这点东西了。如果每个人一天只搞几个汉字的信息,那么三个月一期项目就能完工了。如果必要的话,我们也可以利用现有的GPL资源。但这些资源的权威性必须得到确切的承认。
二期内容,实际上就是把现有的词典输入到电脑中,加注相应的读音、词性,为今后根据语法结构进行拼写检查做下基础。

这个项目实际上是一个数据集,而并不是相应的算法。需要相应功能的程序员,可以自行编写相应的算法。当然,我们也可以组织人力来编写这样的算法,但这是另外一个项目了。

当然,假如这个项目真的能够启动的话,需要通过一个现成的组织(比如共创开源)将字典和词典的版权问题解决。
回复

使用道具 举报

发表于 2004-3-16 21:00:46 | 显示全部楼层

Re: 如果搞一个中文字词库的超级大项目,会有人参加吗?

[quote:a351a15b01="mandrakechina"]其实这个项目我考虑很久了。

现在 Linux 上对中文的支持远没有到可以投入桌面使用的程度。比较重要的一个东西,就是没有GPL的中文字词库。基于现成的字库,可以做出很好的汉字排序算法(拼音、偏旁、笔画随便你),也可以很方便的生成按拼音或笔画排序的术语表。基于现成的词库,可以做出很好的拼写检查程序。当然,字词库本身就可以成为一个超大型的软件,为星际译王等程序所用。

总体来说,这个项目是一个体力活,而不是技术活,只是需要大量人力的投入。如果以公社的名义启动这个项目的话,再辅以校园联络员的强大号召力,可能在开源事业上做一点实事。

如果需要的话,我可以马上拟一份计划书。[/quote]
支持!

其实我也一直想推行这个计划,毕竟这对Linux应用的普及和发展意义十分重大。但我担当不了这个项目的核心技术人员和带头人,所以就没更多地去考虑。

mandrakechina如果愿意从“核心技术人员和带头人”的角度来开展这项工作,正是公社发展过程中求之不得的事。我会尽自己所能给予积极支持的。
回复

使用道具 举报

发表于 2004-3-16 21:05:17 | 显示全部楼层
[quote:d263f4f294="sjinny"]mandrakechina, 你要有精神准备哦,到时候精神支持的人很多……[/quote]
也许多很多人本想实际行动上支持的,在你这句话的熏陶下也会转向“精神支持”的。

做自由软件项目,难处是客观存在的;如果任何事因为看到难处就放弃的话,最终可能一事无成。能不能把精神支持者转化为实际行动者,靠的是项目负责人的沟通和带头,说得再头头是道都没用。
回复

使用道具 举报

发表于 2004-3-16 21:08:17 | 显示全部楼层
前期工作一定要做好。相关的计划就请你去研究起草了。
回复

使用道具 举报

发表于 2004-3-17 00:10:00 | 显示全部楼层
恩...既然Fujinsan批评俺了,那俺就说点实在的吧:
现在Linux下最缺少的中文相关的东东是什么?现在是否有一个好的字体能直接附带在Linux发行版中的呢?是否有一套完善并且高效的办公软件呢?(不要对我说有OpenOffice,这Java做的东东太慢,我在我的duron750上做过一次幻灯片,只有些文字,弹出个菜单还要等上好几秒,我不会为了用OpenOffice而升级我的电脑)Linux下是否有一套好的自学向导呢?(可以让初学者轻松学会如何使用Linux的图形界面)
再说远点,XFree86的运行速度和稳定性实在让我不敢恭维,本来linux是以稳定著称的,用了XFree86后这点优势就给糟蹋没了,稳定性跟win98是半斤八两(普通用户可不管到底是不是内核死了,对他们来说界面没反应了就是死了,就会想到机箱上的reset或power……),但是运行速度却比win98差得远了,这样的系统除了技术狂热者,有多少普通用户想用?XFree86的一个所谓优点是网络透明的特性,问题在于普通用户不可能用得到这个功能,但是这个功能却会对运行速度产生负面影响(俺猜的……),于是这个功能就成了鸡肋……
再说远点,Linux下现在的娱乐软件怎么样呢?
mplayer还不够稳定(界面经常失去相应,特别是播放的文件有问题的时候),运行速度也差强人意(恐怕主要还是界面相应速度的问题),编译安装复杂(我都编译装过2、3遍了,我还是觉得编译安装太复杂,但是为了运行效率和稳定性我还是倾向于自己编译安装),mplayer的配置也很复杂,编译安装时要自己搞定一大堆插件,之后要自己搞定skin,普通用户不会热中于做这些,mplayer对rm文件的支持还不好,声音和画面经常不能同步,播放进度条也不能正常工作(用了画面和声音就不能同步),用mplayer通过网络看电影时无论电影流媒体是什么格式都不能使用播放进度条,mplayer当然也有自己的优点,比如我下载的一些asf文件有问题,WindowsMediaplayer都放不了,到了mplayer就能正常播放(对于普通用户来说,用户不会说是WindowsMediaplayer烂而说文件烂,但是如果用户只用了mplayer,即使能正常观看,只要看到一点错误提示也会觉得mplayer老出问题而不会说文件太烂……)……但是我们这些技术人员和支持自由软件的人才会即看到缺点又看到优点,对于普通用户,软件的缺点比优点更印象深刻,因为软件出问题时能很轻易地给用户留下“深刻印象”甚至是“不可磨灭的记忆”……
Realplay8在我的FedoraCore1上安装后不能使用,RealOne在我的RedHat8.0时代又慢又不稳定……
我家上的宽带网是网通的,在Windows下电击电影的链接(指向一个asp文件)会自动调WindowsMediaplayer进行播放,而我在Linux下只能先把链接里指向的文件保存在一个临时文件夹里然后在终端里用less查看然后手工把电影的链接复制粘贴到mplayer里……
Linux的启动速度和关机速度都很慢,技术人员会骄傲地说:“这是因为Linux是给24*7的服务器用的高可靠系统,所以启动和关机都需要时间。”,用户会回答:“我不需要用它做服务器,只要在我使用的几个小时里不死机就行了,我只是不想看着我看不懂的字符提示等上很长时间。”不要对用户说在启动和关机的过程中你可以去做点其他事嘛,因为启动和关机时守在电脑前面是他们从windows世界里带来的习惯。
Linux下安装软件是很困难的,即使有了rpm……卸载软件对普通人是不可能的任务,我到现在卸载一个编译安装的软件心里都没底……
Linux下没有够多够好的游戏,这个不用再说了,需要游戏的人心里都知道是个什么现状……熟悉桌面电脑用途的人都知道这种现状所造成的后果……
Linux系统的安装本身也挺困难的,因为一个普通用户要安装win98都不容易,更不要说Linux了,很多人连分区是何物都不清楚……
Linux下缺少成熟的那种可视开发工具(是不是叫RAD?)

当然我列举这么多Linux系统的问题不是为了说明我们应该放弃对她的支持,虽然道路曲折但是前途光明,但是虽然前途光明但是还有曲折的道路要走。
我一直想:如果OpenOffice使用C++和跨平台的framework来开发并且达到目前的功能,那么和M$Office绝对有一拼,现在的OpenOffice的功能其实是很不错的,最大的问题就是运行速度……如果OpenOffice使用C++和跨平台的framework来开发并且达到目前的功能,那么M$Office的末日基本就快到了,因为那时政府就可以方便地实行系统平台转移,可以先在win平台用一段时间的OO,然后可以毫无困难地在Linux下用OO,非机密文件用OO的文件格式还是很好的,因为它的文件格式(据说)就是一个压缩包(.gz格式?)里面是几个xml文件,文件格式是开放的。
如果Linux下有够多够好的游戏,有成熟的娱乐软件,那么网吧里就可以全面转用Linux了,因为Linux有现成的用户管理功能(只要做几个小软件或者shell脚本计算花费就行了),就不需要美萍什么的了,而且不用担心有人察盗版,又不需要经常重装系统……

但是如果我们不去改变现有的缺陷,这些如果是不会自己出现的……


其实我并不懂字库是什么东东,不过现有的系统使用中文倒没什么大问题,而把字典、词典放进电脑,(恕我直言)我觉得目前还不是很迫切的需求。

现状是很多应用领域Linux都有相应的应用软件,可惜很多细节上都做得不够,就像一个小伙子,还不够成熟。(当然我主要还是指桌面应用)


俺说的都是大实话,表打我~
回复

使用道具 举报

发表于 2004-3-17 00:52:33 | 显示全部楼层
靠,写这么大一篇,摆明了不让我看嘛!
回复

使用道具 举报

发表于 2004-3-17 01:03:22 | 显示全部楼层
说实话,sjinny的很多问题在我这里还真没出现过。
OpenOffice在firefly大哥的不断完善下已经完全具备了正常办公使用的能力。
并且,启动速度又加快了,对于我的256M内存,(现在办公室的电脑也大都是这样的配置了吧)
我感觉不出和MS Office 2003启动速度有多大的差别。
我不是在盲目的替Linux说好话哦。也可能是我的运气好,Linux不找我茬吧。
俺说的都是大实话,表打我~

大家讨论而已。 :-)
回复

使用道具 举报

 楼主| 发表于 2004-3-17 11:19:28 | 显示全部楼层
关于字体的问题,我不想再多说什么。我们无法期待国内的是字体厂商将字体以GPL授权放出,因为他们要狠宰操作系统厂商一笔授权费。现有的字体中,只有文鼎的四个字体是GPL的。

文档其实已经有很多了,但没有人愿意去翻译。Mandrakelinux 官方文档计划已经进行快两个月了,一直以来都没有人参与,只有我一个人翻译,另外一个人只是进行校对而已。我可以负责任的说,这个文档绝对可以解决初学者的问题,也许那些所谓的高手也会为之动容。

sjinny所说的其它问题,不是很好解决的,因为全部是技术活。我说的这个项目,是一个纯体力活,只要有庞大人力,就能够办成的一件事。而且,这件事必须由中国人自己来做,不可能指望别人。这个项目的实际意义并不在于能够做出一本电子版的新华字典,而是做出一个汉字信息库。只有依据这个信息库,程序员才能够实现对汉字本身的高级处理,如排序、拼写检查。说个很简单的例子,你在Excel里可以对人名单按姓氏笔划排序,但OOo Calc绝对没有这个功能。比如,现在Linux的应用开发库(注意我的这个用语)已经能够支持不同的日历系统了,那么为什么没有农历呢?这也应该是我们中国人应该考虑的事情。

我在本周抽个时间拟一个详细的运作计划。但有一件事我比较担心,就是这个计划的基础版权无法确定。比如我们大家都按照同一版本的新华字典来弄,那么新华字典的版权点究竟在哪里不好确认,商务印书馆不可能持有字典的全部版权。希望懂版权的朋友,先说一下。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

GMT+8, 2024-12-4 04:00 , Processed in 0.093457 second(s), 15 queries .

© 2021 Powered by Discuz! X3.5.

快速回复 返回顶部 返回列表