Yuan Yijun (bbbush) wrote,
Yuan Yijun
bbbush

  • Mood:
  • Music:

Google 和 Baidu 哪个好一点

    看了一个视频短片,Baidu 宣称自己的中文分词技术先进,用了一句话 “我知道你不知道我知道你不知道我知道你不知道”。因为是古装片,唐伯虎大模大样的在竖排文字上点标点,有点星爷的搞笑风范。那个只能勉强认识中文的老外最后吐血啦,倒掉啦。

    两件事:

    第一,究竟是红旗,微软,IBM 还是 Google 先做好中文竖排?只有做好了这一点,才是真正的国际化。正如 GNOME 中国社区说的那样,对蒙文的支持不是那么简单。只有某些 Office 做到了,并且作为卖点。报纸、杂志专业排版自不必说。蒙文是竖排的,带组合字符,带修饰的 Unicode,书写顺序从右向左,从上向下,也许只有 cairo 这样新一代的绘图引擎才能做到。现在的 pango 不支持中文竖排,更不要说蒙文了。句读遇到中文竖排,也有几种不同的方式,有的是嵌入文本,就像一般的报纸排版;而古书的句读,旁注,夹注,足够把 cairo 的能力压榨得一干二净,pango 的接口也必须好好设计。我是想不出来了。不过为什么要指望外国人做这些呢?虽然 cairo/pango 是 redhat 的天下,我还是希望红旗可以做些贡献出来。我想 IBM 的 icu 做这个事情也有困难。Google 要支持中文竖排,必须推出自己的浏览器,也就是必须推 Qt 这个方向。大概的预测就是这样。

    第二,从 Google 和 Baidu 分别搜索 “竖排版的句读位置”,因为我发现短片里,标点被点到了每列的左边。可是我记得句读应该是点在右边。我能在网上找到结果吗?

    Google 说 约有93项符合竖排版的句读位置的查询结果,以下是第41-60项。 (搜索用时 0.26 秒) 
    Baidu 说  找到相关网页103篇,用时0.001秒  
    (实际列出的条目,Google 是 60 项,Baidu 是 40 项,Baidu 的后 60 项都是  回复:购书确认帖(胡同专用) ,在 Google 这个条目只有一项)

    搜索收获:

    google
    1. 发现一个网站 http://w3.cbeta.org 在为佛经的电子化造字,是 Google 搜索句读位置时候的第一个链接。
    2. 这篇文章不错,  符号小,学问大——写在《标点符号学习与应用》重印之际 
</font>    3. http://spaces.msn.com/members/yingerqi 一个无关的网站,也许是搜索到 “位置” 了?但是突然看到照片上我们南京大学和 PPMM,不禁心动...!
    4.  美洲中国文字改革促进会 http://www.wengai.com/gb/landetail.php?id=15&lan=GB “ 中文LINUX操作系统的出现,标志着微软公司对中文软件市场的控制即将结束”
    5.  上海新闻志·第四编业务·第一章编辑  http://www.xinwenren.com/Article_Print.asp?ArticleID=1202
    6. 中华印刷通史 http://www.cgan.com/book/books/print/g-history/gb_12/14_1.htm
    7.  樱之吹雪 首页 万叶集 → 诗的自由 (想来是日本文化爱好者?不过这一页的内容是浓重的中国古诗知识,论文似的,有些堆砌了)
    8. 深圳梅林中学语文组 “语文味” 网站 http://www.yuwenwei.net/   创办人:深圳市教研室 程少堂 
    9. 大法,....
    10.  景山写作学院  http://www.jsxzxy.com//artdisp2.php?id=28914  (主要是看到了下面的签名:程序编写:左轻侯 http://www.wushuang.net/ )
    11. “听一句读一句” 这样的搜索结果在 Google 里面有好几个
    12. 北大中文论坛 http://www.pkucn.com/index.php
    13. 近墨居,不支持 firefox http://www.jinmoju.com
    14. http://www.cs.ust.hk/  这里有一份汉语近义词表

    baidu
    和 google 的确没什么交集,1, 2, 5, 6, 都有,多了很多小说,包括网易连载等等。另外,有两个网站看来在百度是挂了号的,因为有好多结果都来自那两个论坛,并且都是“打印模式”,差点把浏览器搞死掉。
    1.  四海经典导读网   怪怪的,矮个子里面拔将军了
    2.  绝妙的空格 http://www.yesky.com/busnews/216455356602122240/20000309/1249576.shtml  天极网的东西, 作者介绍:冯志伟教授,中国语文现代化学会副会长,现在国家教育部语言文字应用研究所工作。 (让人觉得更怪异,天极网是搞 IT 的)
    3. http://edu.mblogger.cn/faithzheng  这个博客看来不错,是个老师, 福州人?在 blog 里面乱贴东西的习惯,收集资料的习惯,我们差不多哦 ^_^
    4. 试剑江湖,小说(x) http://220.174.246.48
    5. 气象出版社,图书出版说明 http://cmp.cma.gov.cn/knowledge/003.asp 可惜没有提到竖排时候的标点
    6. 成长论坛  http://www.cedu.cn 
    7. http://www.ywsl.com/bbs/bbs_show.asp?id=13980 这个太爽了!这个网页里包含了五六张照片,就是竖排版的书籍!可以明显的看出,标点和重音都是偏右的,人名的下划线当然是偏左的。
    8. 郑州大学学报 (哲学、社会科学) Nov. 2004  中国历史上标点符号规范化 萧世民 (井冈山师范学院中文系,江西吉安343009)  这里面提到一些,虽然 “旁边” 没有说出是左边还是右边。学问不是这么做的,这也是他没出息的原因~~

    怎么说呢,分词方面大家都彼此彼此,google 搜索的结果更有趣一点。google 显然对中文的 pdf 没有什么研究,不过中文的 pdf 数量简直寥若晨星。还有论坛,如果 google 可以关注一下中文论坛的 pring.php 页面,那么中文数据量会翻好几倍... 不过相信大家不会希望看到这个样子“芜杂”的 google 搜索吧?

    BTW, 发现搜索 “我知道你不知道我知道你不知道我知道你不知道”    的结果,Google 第一条就是 “百度宣传影片 ” ,第二篇是 “ 百度知道的广告  知道不知道知道不知道知道不知道」. 「知道不知道知道不知道知道不知道」. 「知道不知道知道不知道知道不知道」. 「我,知道不知道知道。你,不知道知道不知道” 并且搜索结果是  约有9,920,000项符合我知道你不知道我知道你不知道我知道你不知道的查询结果,以下是第1-20项。 (搜索用时 0.27 秒) ;Baidu 的结果是  找到相关网页约3,140,000篇,用时0.001秒  但是没有找到那个帖子。另外,Baidu 的分词结果有一半是这样的搜索 “ ..女,谁说你不在乎?_读书频道_新浪网..”,包括第一个搜索结果。而 Google 的分词结果是 “ 知道,不知道】歌词列表 ”和“ 那一刻,知道” 这个样子。也许是 Baidu 的数据量太少的原因。

    Google 的繁简转换的确非常非常体贴,股价那么高也应当。Baidu 要想超越,不能像中国电信和中国联通学,拍什么小电影;扩大自己的数据量才是正道。不过既然老板们都赚了钱,还会有什么动力让他们继续呢,难道还是钱吗?——开源和人的创造力才是王道。(什么?Baidu 也有繁简转换,也有编码大赛了?...)

    杭很喜欢 Google,也非常关注。他已经告诉了我非常非常多的链接了。

    看小说,吃月饼,打游戏,打电话回家,过一个快乐的中秋节。
Tags:
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments