输入法的联想

 

听说微软发布了必应输入法,我对此也唠叨几句。

以前输入法是没有智能的,曾经的智能ABC虽带有智能的名头,但用过的人都知道它是让人多么纠结。当然,那时候电脑还都只是128M内存,的确不能指望一个输入法在此基础上能做得多么强大。

如果没有估计错误,那个时代称得上智慧输入法只有“智能狂拼”,可惜我生得晚,真正想尝试的时候“搜狗拼音”已经横空出世,与之对应的“智能狂拼”开始走下坡路。据说“智能狂拼”输入法的背后开发只有一个人,面对搜狗公司这样强大的竞争者,它没有外援的结果很容易预料。现在市场上“智能狂拼”只剩下良好的口碑而无实际新品对应了。

拜当时教室机房默认安装所赐,让我我第一次真正接触到智慧型的输入法——微软拼音2003,它的整句输入很有特色,我惊讶的是它会根据我输入的一个长句自动分词!要知道放在现在分词也是一门很深的学问,新浪云服务还专门提供了一个项目就是“云端分词”,足见分词难度,这是需要很多计算量的。

举例说,就是输入一个句子: “我正在跟张牛叉一块吃饭” 。微软拼音输长句的途中你可以修改句子,其中“张牛叉”这个词对它而言也是陌生词。在正确输入一次之后微软拼音就能自动从句子中将“张牛叉”这个词拆分出来列入你个人词库。下次输入如:“张牛叉在图书馆吃饭”,“他正在跟张牛叉走在路上”之类的句子,都不成问题了!

从整个句子中拆分陌生词出来的能力07年时不要说QQ拼音、谷歌拼音,就连“搜狗拼音”都没做到,这些输入法基于各种原因,只懂得生硬的记录你输入过的词句,却不懂得从词句中提炼相应的陌生元素。无怪乎人家只能称它们为词输入而不是句输入。

现在的搜狗拼音、QQ拼音、还有微软新的必应输入法,都用了所谓云端智能技术,其实这都是很虚的玩意,所谓云端就是利用服务器庞大的词库去提高长句输入的正确率。这词库跟用户个人无关,都是互联网搜集来的一大堆时髦词汇,这做法跟N多年前号称拥有怪兽级400M词库的“黑马神拼”没有什么本质区别。都同样毫无用户特征可言。而文字输入应该是很个性化的。

以前的“智能狂拼”,就尝试过从用户提交的本地文档中学习用户的说话方式。现在到了网络云时代,先进的做法就应该是利用网络邮件、博客文章、甚至网盘中的文件,IM聊天中的语句,拿这些来深入了解学习这个用户打字习惯。再利用服务器强大的计算能力,分析用户当前输入的上文,接着判断出接下来的可能是什么。比如面对“他”“她”“它”之类的问题,既然前面提到了男性化的特征词,那接下来要输入TA的话就肯定是“他”而不是“她”了。

可惜,现在都非常讲究隐私,而开发输入法的公司就算真的有机会从网上吸收用户个人习惯,也没有人去尝试做这样的事。毕竟这条路技术要求很高,输入法本身不能直接赚钱,那些商业公司都点到即止,做到这水平之后他们就开始在所谓的输入法上开拓各种服务,包括什么一键搜索、语音输入。而真正的云端学习,云端分词之类的底层没人关注了。忽略了基础功课后开发的语音输入效果也不会好到哪里去,更何况口语是比书面语更具个性化的东西。

 

觉得好可以点个赞!
(暂无人赞)
Loading...

《输入法的联想》有6个想法

        1. 那可能是因为你的域名并非备案后的域名,没有备案的域名是不能使用新浪SAE国内的服务器,它们只能将你的资源转移到国外,从国外访问,速度当然会降低你可以尝试一下使用回原来的二级域名,对比一下速度

发表评论

电子邮件地址不会被公开。 必填项已用*标注