谷歌拼音半月谈
2007年4月4日~2007年4月19日,谷歌拼音诞生半个月了。也许日子选的非常不好吧,谷歌拼音命运多桀,刚出生没多久就被“词库门”困扰。我们访问它的网站,除了16(修正自然双拼方案等)、17(词库等)而升级的版本外,这么久都没有动静了。是谷歌拼音没有需要修改的地方了么?我看不是——谷歌拼音远不完美。
作为拼音输入法的发展方向,也许有四个:
1、依赖辅助码(或者更高级一点,采用自然码的形码)降低重码;
事实上,最早的拼音输入法,都没有考虑辅助码的问题,但是由于严重的重码问题,使用其他一些花哨的技术,不能从根本上解决,所以正如自然码之父周志农先生所说,“火火的那些输入法再发展,就会考虑到辅助码的问题了”。事实上,这个在很多拼音输入法上已经体现了,但是却是不彻底的体现。
要说辅助码方式,最高级的就是自然码的形码。
当年自然码(音形码)和五笔字型(形码)争天下的时候,能够三分天下有其一,和自然码双拼加形的极低的重码率和极高的学习速度密不可分。现在的其他拼音类输入法,仅仅在汉字的横竖撇捺折上做些工作,完全没有做到像自然码一样使用偏旁的声母(自然码形码的一般规则)来减少重码。这个方式,被自然码称为字词方式,依然为老自然码用户所钟爱。这种发展方式,优点就是可以做到输入法的尺寸很小,速度可以很快(可以和五笔字型一争高下),缺点就是为了高效率、少重码,某些偏旁并非自己的声母发音,增加了记忆负担。
2、依赖语料的语句输入(比如自然码,智能狂拼,黑马等);
我们知道,自然码和智能狂拼都挂接了黑马的语料库,这种依赖语料库达到完美语句输入也是一种解决方案,只是这种方式,将导致输入法非常巨大,非一般用户所能接受。作为专业用户(比如“想打”的人们),基于效率和不破坏思维,可以接受这些巨大的语料库达到完美的输入效果。
3、依赖语法的语句输入(比如微软拼音2003);
具体技术细节不太清楚,但是从微软拼音2003的70M的尺寸也是有些难以接受(后面倒是发行了精简版,20M)
4、依赖人工智能的语句输入。
搜狗在其六点声明里提到“独立利用搜索引擎技术对发展人工智能做出的开创性贡献”,虽然我对搜狗拼音在人工智能方面的贡献持非常严重的保留态度,但是“人工智能”的确是输入法应该走的一条道路。遗憾的是,语言文字学和人工智能的学术研究虽然比较多,但是真正用到输入法的几乎没有。
事实上,我宁愿相信,Google在低调的发展谷歌拼音的人工智能技术,这从Google资助人工智能研究机构可略见端倪。以创新和技术为支撑的Google,会不会将AI用于输入法呢?我殷切的期待。说句实话,搜索和输入法,在某些方面,真的有相通之处。
拉拉杂杂说了这么多,总结一下吧:
1、谷歌拼音辜负了大家的期望,半个月都没有升级了。
2、拼音输入法加辅助码/形码降低重码率(或者说减少翻页)是必由之路,而自然码在这方面已经等其他拼音输入法十几年了。
3、语料方式的语句输入法并非完美的解决方案,但是在现阶段技术条件下,也是最理想的解决方案了,适合高端用户使用。
4、期望有一款输入法能真正AI起来。
Keepwalking说,“拼命叫嚣着的输入法们,他们的欲望太复杂,输入法本身的完善,恐怕远远不是放在第一位的考虑。”我只希望,在这个喧嚣的商业社会里,少些炒作,而能用心、用技术来做输入法,给大家献上一款真正完美的中文输入法。
KISS
一个人独守办公室,一口气看完了《UNIX编程艺术》的前三章,感觉受益良多。
程序员的悲剧
打字速度快是错吗?
又是N页手稿!
Python@Eclipse
安装Eclipse的时候,提示我:
标题:Incompatible JVM
内容:Version 1.3.1_01 of the JVM is not suitable for this product.Version:1.4.1 or greater is required.
安装JDK5,系统居然提示My Pictures 无效值,在网上找了一下资料,说是注册表的问题,里面存储的值要么为空,要么是光驱等非写入盘符,搜索一下,果然如此,将My Pictures 的值修正后就能够正常安装了。
不过……我正常安装了JDK5以后,运行eclipse,它却仍然这样提示我,结果网上再找资料,原来如此:
机子里装了oracle,oracle自带1.31版JDK,解决方法是在环境变量中的PATH里装你装的JDK1.42的路径写到oracle路径前面,这样系统就不会先找oracle的jdk1.31了!(CSDN)
不过,最后还是将python的插件正常安装到eclipse上了。
五星级公园——浣花溪
浣花溪畔,杜甫草堂。
成都把浣花溪公园打造的非常的漂亮,也算是成都的一张名片吧。
昨天LP发烧,吃药休息一宿后好像好多了,于是准备带她出去逛逛,而最好的地方就是离我们不远的浣花溪公园。
以前都是从北门进入的,这次步行过去,自然是从南门进入。在路上,看见很多情侣都偎依在一起坐在河畔的椅子上,让我们想起了在学校的日子*^_^*
进入南门,发现了以前没有的东西——诗歌大道。以前似乎没有这个东东,它连接着两个广场,道路中央铺满了自先秦到清朝的代表诗作,而道路两侧则是当代的代表诗人。
此外还有紫竹林和万树山,上次都没有去过。万树山风景不错,真让人感觉不像在喧嚣的城市。
此时真正的感到,自己住在一个多么方便的地方,毗邻浣花溪、杜甫草堂、青羊宫、武侯祠等等名胜,幸甚~
神于天,圣于地(转)
神于天,圣于地。
理想主义与现实主义就是我们的天和地。
“神于天,圣于地”这六个字其实是中国人的人格理想:既有一片理想主义的天空,可以自由翱翔,而不妥协于现实世界上很多的规则与障碍;又有脚踏实地的能力,能够在这个大地上去进行他行为的拓展。只有理想而没有土地的人那是梦想主义者而不是理想主义者;如果只有土地而没有天空的人,那是务实主义者而不是现实主义者。其实理想主义和现实主义就是我们的天和地。
三十岁之前是理想主义者,那是激情;三十岁之后仍是理想主义者,那就是疯狂!
那么是否是说,三十岁,是“神”和“圣”,“天”和“地”的分水岭呢?
幸福季节——简阳樱桃沟
简阳樱桃沟,距离成都30余公里,距成都市主城区仅半小时车程,是简阳“两湖一山”旅游区开发重点项目,其发展定位为面向成都的自驾游、乡村休闲游目的地。“在老成渝公路42公里处拐入贾家镇大山村,沿着蜿蜒山间的水泥路再前行1公里。
樱桃沟地处龙泉山脉,东起贾家镇大山村,西至老君井乡松林村,主、支线共长10余公里。当地人祖祖辈辈都有种樱桃的习惯,房前屋后,山上坎下,遍布樱桃树。现在景区共有樱桃5000余亩,600米左右的海拔高度,加上特有土壤、气候条件,造就了闻名遐迩的鲜美樱桃。
当地农家乐,30元包午餐晚餐,并且可以随意取食樱桃。
这真是幸福的季节。
另外,枇杷沟也是丰收的季节了,相比樱桃,我更喜欢吃枇杷哦:)
股市?楼市?
身边的同事们渐渐的不关心楼市了,把精力转向股市。
这是不是一个风向标呢?
也许这会促成另外一个产业:无线上网。大家都捧着个CDMA无线上网卡的笔记本看着黑色背景的股市软件,是怎样一个壮观场面啊~
我有同事说,他花一万元的硬件(无线上网笔记本)投资,早在股市找回来了——只是是利用的工作时间炒股。
也许,老百姓买楼能轻松一点了,只是拉高了的房价怎么下来呢?
感觉楼市就是一个巨大的传销,最终倒霉的,是最底层的人们。
第三条道路:也谈谈输入法
他们都说最近是输入法的节日,这可不,大家看输入法的话题都看烦了。但静下心来,我们仔细想想,我们真的有一个完美的输入法么?
没有,正如keso说的一样。
很多人难以理解王小峰说的“狗歌是两个垃圾输入法”的说法(一、二、三),很多人在使用“只能”ABC之后用上了紫光,就觉得紫光是非常舒服的输入法了,也就容忍了紫光的不稳定。有了搜狗拼音以后,更觉得我们的生活多美好,搜狗拼音不仅稳定,而且还能自动同步网络词库。
那是因为他们没有使用过更加高档的输入法,比如黑马,比如自然码。
黑马的语料库是非常丰富的,因为自然码也挂接了黑马,所以我对这一点理解非常深刻。搜狗拼音说自己“使中国人的输入速度提高一至两倍,在中国迅速崛起的大背景下,将使中国人和中国文化以更快速的方法占有和形成全球互联网的话语权,是对中华文明的重大贡献”。如果真的这样,我不知道自然码积累多年的各类专业词库算怎样的贡献。要说传承,我想自然码的词库方向才是正确的方向。从互联网取词,算了吧,没有输入法的时候,“只能”ABC的一个“斑竹”就已经遗臭万年了,互联网上以讹传讹的事情多了去了,我不关心这些所谓的最新词库。
我曾经说过,“谷歌拼音的问题是没有足够的亮点,自然码的问题是没有足够的焦点”。这是我的肺腑之言。无论谷歌还是搜狗,都缺乏足够的亮点,真正优秀的输入法却缺乏相应的焦点。自然码、黑马的使用者,往往都是文字工作者,比如刘韧,比如洪波,比如王小峰等等。他们对输入法的要求比较高,所以选择了自然码、黑马这类的输入法,这种输入法,才能满足自己输入汉字的要求,才能让自己能从容的像搜狗拼音一样对“中华文明有重大贡献”,而不至于打出“斑竹”遗毒后世。
如果谷歌、搜狗分别算第一条第二条道路,那么自然码、黑马等就算第三条道路(专业词库)。如果拼音输入法、五笔输入法分别算第一条第二条道路,那么自然码、黑马等就算第三条道路(音形码)。如果上网聊天、专业录入算第一条第二条道路,那么自然码、黑马等就算第三条道路(文字工作者)。目前极为流行的拼音输入法(包括谷歌、搜狗、紫光、加加等)是占领的拼音输入法的大众人群,而自然码、黑马等占领的是进行文字创作的少众人群,在这次纷争之外的五笔用户,一部分是专业的文字录入人员,一部分是在全民学五笔浪潮中遗留下来的,现在很少有主动学习五笔了。(这里说到五笔,五笔真的优秀么?在吴越的《哪一种汉字输入法最好?》文中提到,“经过我……十几年……的比较,我认为音码中比较好的是自然码,形码中比较好的是表形码。”而表形码的作者最终是如何的呢?大家有空可以看看这篇文章。)
洪波曾经说过:“我觉得,世界上还是懒人多,科技的进步在很大程度上,是为了满足懒人的。以前,会五笔就能找到工作,那时候家长让孩子学电脑,很多时候其实就是学五笔。所以,哪怕只是为了找个工作,也要学好五笔。现在计算机普及了,没人愿意花时间花精力去学习输入法,所以最笨的拼音输入法也就发展了,有了整句输入,不完整拼音输入,……科技必须照顾懒人,只要能让人们方便一点儿,就是进步。如果写字是你的职业,那么花点儿时间和精力掌握一种能提高效率的输入法,还是划算的。”
我在想,如果优秀的输入法作者能够不为几斗米折腰而辛辛苦苦的制作商业化的输入法,优秀的输入法能够由强势的企业免费推广,让大家都体验到真正的流畅的汉字输入,是多么美妙的事情啊~既然在相当长的一段时间内,我们不可能放弃键盘输入,又不可能花钱去买一个输入法软件,那么由有实力的商家推广免费的优秀的输入法也成为一种选择。
持这种观点的人渐渐的多了起来,不是有传言Google要收购黑马么?不是有建议Google收购加加么,我想大家都是这么一个目的。其实,作为普通用户,要求的,仅仅是免费流畅优美的输入法,仅此而已。
《SICP》与《Art of Unox Programming》
《程序员》2007年三月P58的文章。
作者徐昊推荐了两本常看常新的经典计算机书籍:
《SICP》中译《计算机程序的构造和解释》
《Art of Unox Programming》中译《Unix编程艺术》