谷歌拼音半月谈 – 木鱼琐语

谷歌拼音半月谈　　2007年4月4日～2007年4月19日，谷歌拼音诞生半个月了。也许日子选的非常不好吧，谷歌拼音命运多桀，刚出生没多久就被“词库门”困扰。我们访问它的网站，除了16（修正自然双拼方案等）、17（词库等）而升级的版本外，这么久都没有动静了。是谷歌拼音没有需要修改的地方了么？我看不是——谷歌拼音远不完美。　　作为拼音输入法的发展方向，也许有四个：　　1、依赖辅助码（或者更高级一点，采用自然码的形码）降低重码；　　事实上，最早的拼音输入法，都没有考虑辅助码的问题，但是由于严重的重码问题，使用其他一些花哨的技术，不能从根本上解决，所以正如自然码之父周志农先生所说，“火火的那些输入法再发展，就会考虑到辅助码的问题了”。事实上，这个在很多拼音输入法上已经体现了，但是却是不彻底的体现。　　要说辅助码方式，最高级的就是自然码的形码。　　当年自然码（音形码）和五笔字型（形码）争天下的时候，能够三分天下有其一，和自然码双拼加形的极低的重码率和极高的学习速度密不可分。现在的其他拼音类输入法，仅仅在汉字的横竖撇捺折上做些工作，完全没有做到像自然码一样使用偏旁的声母（自然码形码的一般规则）来减少重码。这个方式，被自然码称为字词方式，依然为老自然码用户所钟爱。这种发展方式，优点就是可以做到输入法的尺寸很小，速度可以很快（可以和五笔字型一争高下），缺点就是为了高效率、少重码，某些偏旁并非自己的声母发音，增加了记忆负担。　　2、依赖语料的语句输入（比如自然码，智能狂拼，黑马等）；　　我们知道，自然码和智能狂拼都挂接了黑马的语料库，这种依赖语料库达到完美语句输入也是一种解决方案，只是这种方式，将导致输入法非常巨大，非一般用户所能接受。作为专业用户（比如“想打”的人们），基于效率和不破坏思维，可以接受这些巨大的语料库达到完美的输入效果。　　3、依赖语法的语句输入（比如微软拼音2003）；　　具体技术细节不太清楚，但是从微软拼音2003的70M的尺寸也是有些难以接受（后面倒是发行了精简版，20M）　　4、依赖人工智能的语句输入。　　搜狗在其六点声明里提到“独立利用搜索引擎技术对发展人工智能做出的开创性贡献”，虽然我对搜狗拼音在人工智能方面的贡献持非常严重的保留态度，但是“人工智能”的确是输入法应该走的一条道路。遗憾的是，语言文字学和人工智能的学术研究虽然比较多，但是真正用到输入法的几乎没有。　　事实上，我宁愿相信，Google在低调的发展谷歌拼音的人工智能技术，这从Google资助人工智能研究机构可略见端倪。以创新和技术为支撑的Google，会不会将AI用于输入法呢？我殷切的期待。说句实话，搜索和输入法，在某些方面，真的有相通之处。　　拉拉杂杂说了这么多，总结一下吧：　　1、谷歌拼音辜负了大家的期望，半个月都没有升级了。　　2、拼音输入法加辅助码/形码降低重码率（或者说减少翻页）是必由之路，而自然码在这方面已经等其他拼音输入法十几年了。　　3、语料方式的语句输入法并非完美的解决方案，但是在现阶段技术条件下，也是最理想的解决方案了，适合高端用户使用。　　4、期望有一款输入法能真正AI起来。　　Keepwalking说，“拼命叫嚣着的输入法们，他们的欲望太复杂，输入法本身的完善，恐怕远远不是放在第一位的考虑。”我只希望，在这个喧嚣的商业社会里，少些炒作，而能用心、用技术来做输入法，给大家献上一款真正完美的中文输入法。