中文还是天然屏障吗?

Posted: 九月 1st, 2005 | Author: | Filed under: 文章 | Tags: , , , , | No Comments »

老白要向百度拍砖,我顺手拣了几块砖头。

有人引用的李彦宏话说: “中文搜索与英文搜索是完全不一样的。英文搜索,遇到的是以一个个以空格相隔开的词,而中文的词与词之间是需要进行“切词”的(即将一个句子中的词合理分 隔开)。如何让机械的搜索引擎准确地按照中国人的思维习惯将词“切”好,而百度在这方面已经走得太远了”,以此标榜百度中文搜索技术的先进,具体地说是分 词技术的先进。而老白则公开征集百度的分词错误。

带着一丝阴暗心理,我分别用“省长”、“市长”和“县长”分别测试了百度和Google,结果是百度在第一页甚至是第一项就出现了分词错误。以搜索“省长”为例,百度的第一项结果就是“湖南省长沙 市第一中学”,“市长”和“县长”的结果也不能幸免,直到“乡长”和“村长”才打住。Google的情况要好一些,起码在第一页没有发现分词错误。又试了 试“人为”和“为人”,这一次百度和Google的结果不相上下,都出现了分词错误。仅从这区区几个词的搜索,我以偏概全地推论,百度走得并不太远。我不 是百度的用户,早就习惯了在firefox的搜索框直接输入关键词访问Google的方式。有限的使用百度的机会,再次套用李彦宏的话说,都带着对百度的 偏见[注],可见我应该不具备批评百度的资格。

其实我并不是想向百度拍砖,我想拍的是那种认为中文还是保护国内IT 行业的天然屏障的看法。这种看法放到10多年前的DOS时代,似乎还有些道理,当时的普遍看法认为中文处理还是要中国人来搞,洋鬼子搞的东西不地道。直到 后来WPS与Word竞争的时候还是打这张牌,结果如何则是有目共睹的。在目前全球一体化的背景下,技术、人才、资金都在流动,百度能自己开发中文分词技 术,Google也可以请到甚至更好的中文处理专家,再提中文的独特性使国内公司具备先天的竞争优势则近似于痴人说梦了。

[注] 百度解密之二:李彦宏365天解决方案
《21世纪》:要搜东西第一个选择会去Google,当Google被屏蔽时,会转到百度,这是一年前的情形。如果用百度查一家银行,有可能出现的第一个链接不是这家银行的正式(官方)网站,而是与其相关的一次商业活动。现在百度跟Google是怎么竞争的,介意国外投资者说“百度是中国的 Google”吗?
李彦宏:我认为这是对百度的偏见