谷歌拼音半月谈
2007年4月4日~2007年4月19日,谷歌拼音诞生半个月了。也许日子选的非常不好吧,谷歌拼音命运多桀,刚出生没多久就被“词库门”困扰。我们访问它的网站,除了16(修正自然双拼方案等)、17(词库等)而升级的版本外,这么久都没有动静了。是谷歌拼音没有需要修改的地方了么?我看不是——谷歌拼音远不完美。
作为拼音输入法的发展方向,也许有四个:
1、依赖辅助码(或者更高级一点,采用自然码的形码)降低重码;
事实上,最早的拼音输入法,都没有考虑辅助码的问题,但是由于严重的重码问题,使用其他一些花哨的技术,不能从根本上解决,所以正如自然码之父周志农先生所说,“火火的那些输入法再发展,就会考虑到辅助码的问题了”。事实上,这个在很多拼音输入法上已经体现了,但是却是不彻底的体现。
要说辅助码方式,最高级的就是自然码的形码。
当年自然码(音形码)和五笔字型(形码)争天下的时候,能够三分天下有其一,和自然码双拼加形的极低的重码率和极高的学习速度密不可分。现在的其他拼音类输入法,仅仅在汉字的横竖撇捺折上做些工作,完全没有做到像自然码一样使用偏旁的声母(自然码形码的一般规则)来减少重码。这个方式,被自然码称为字词方式,依然为老自然码用户所钟爱。这种发展方式,优点就是可以做到输入法的尺寸很小,速度可以很快(可以和五笔字型一争高下),缺点就是为了高效率、少重码,某些偏旁并非自己的声母发音,增加了记忆负担。
2、依赖语料的语句输入(比如自然码,智能狂拼,黑马等);
我们知道,自然码和智能狂拼都挂接了黑马的语料库,这种依赖语料库达到完美语句输入也是一种解决方案,只是这种方式,将导致输入法非常巨大,非一般用户所能接受。作为专业用户(比如“想打”的人们),基于效率和不破坏思维,可以接受这些巨大的语料库达到完美的输入效果。
3、依赖语法的语句输入(比如微软拼音2003);
具体技术细节不太清楚,但是从微软拼音2003的70M的尺寸也是有些难以接受(后面倒是发行了精简版,20M)
4、依赖人工智能的语句输入。
搜狗在其六点声明里提到“独立利用搜索引擎技术对发展人工智能做出的开创性贡献”,虽然我对搜狗拼音在人工智能方面的贡献持非常严重的保留态度,但是“人工智能”的确是输入法应该走的一条道路。遗憾的是,语言文字学和人工智能的学术研究虽然比较多,但是真正用到输入法的几乎没有。
事实上,我宁愿相信,Google在低调的发展谷歌拼音的人工智能技术,这从Google资助人工智能研究机构可略见端倪。以创新和技术为支撑的Google,会不会将AI用于输入法呢?我殷切的期待。说句实话,搜索和输入法,在某些方面,真的有相通之处。
拉拉杂杂说了这么多,总结一下吧:
1、谷歌拼音辜负了大家的期望,半个月都没有升级了。
2、拼音输入法加辅助码/形码降低重码率(或者说减少翻页)是必由之路,而自然码在这方面已经等其他拼音输入法十几年了。
3、语料方式的语句输入法并非完美的解决方案,但是在现阶段技术条件下,也是最理想的解决方案了,适合高端用户使用。
4、期望有一款输入法能真正AI起来。
Keepwalking说,“拼命叫嚣着的输入法们,他们的欲望太复杂,输入法本身的完善,恐怕远远不是放在第一位的考虑。”我只希望,在这个喧嚣的商业社会里,少些炒作,而能用心、用技术来做输入法,给大家献上一款真正完美的中文输入法。