今天为了确认Google指的那个数的大小,去Wikipedia搜了一把,看到不少关于Google的有趣的dd,其中有些并不是每个人都知道的,摘录于此。


Google on Wikipedia

摘录:

Google是一个位于美国的万维网搜索引擎,是网上最流行的搜索引擎之一,Google公司的搜索引擎网站Google和其客户网站如美国在线那里每天接受2亿次搜索请求。其公司总部位于美国加州圣克拉拉县的山景城(被称为“Googleplex”)。

除了搜索网页之外,Google也提供对图象,存在于Usenet上的新闻讨论组,新闻和在线销售商品的搜索服务。截至2005年2月,Google数据库已经索引了80.5亿个网页,11亿8千万图象及8亿4千5百万新闻组帖子-总共为95亿。它也缓存了编入索引中的绝大多数网页的内容。

因为Google的名声(也许有80%的网路使用者都使用她),“Google”一个事物做动词表示的是“在Google上寻找某事”。它有宽泛的“搜索网路”的意思。Google官方并不鼓励这种滥用他们公司名字的习惯,因为它可能导致Google变成一个通用商标名。

“Google”这个词来自于“googol”。“googol”一词是由美国数学家Edward Kasner的侄子Milton Sirotta创造的,表示1后面有100个零的数字(1 followed by 100 zeroes)。Google使用这个词代表公司想征服网上无穷无尽资料的雄心。最初时公司的名字就叫作“Googol”,但是当创办人将该计划推荐给一个投资人Andy Bechtolsheim时,这个投资人寄来的支票上写的收款人是“Google”,为了接收这一张支票,公司的名字由此而来。

公司总部Googleplex来自于英语单词Googolplex,意思是10的Googol次方(1后面有Googol个0,1 followed by a googol zeroes).

[物理构成]

Google使用位于世界各地的GNU/Linux服务器场计算机回答搜索要求并索引网页。服务器场被以shared nothing architecture结构建造.索引是由程序“Googlebot”执行的,它会定期地请求访问已知的网页新拷贝。页面更新愈快,Googlebo访问的也愈多。再通过在这些已知网页上的链接来发现新页面,并加入到数据库。索引数据库和网页缓存大小是以兆兆字节(terabyte)来衡量的。

Google使用的这些机器的精确大小和位于何处至今未知,Google官方刻意含糊其词。在John Hennessy和David A. Patterson所著的《计算机建筑:走进大数》中,推测Google的服务器场中群集计算机群形成的“搜寻场”在2000年大约应该有6000个処理器,12000个普通IDE硬盘(即每个机器2个硬盘1个处理器),他们位于四个地方:二个在 矽谷和二个在 维吉尼亚。每个都以OC 48的线路(2488 Mbit/s,参见宽带)连接着因特网并且有一个OC 12(622 Mbit/s)线路连接着其他3个Google分站点。这些连接使用思科12000网关,用二个Foundry Networks BigIron 8000的以太网交换器分流成4 x 1 Gbit/s的线路连接到64个服务器夹,里面前后各是40台电脑和1台惠普以太网交换机,所以一个架子共有80个机器和2个惠普交换机。

Google在2004年4月发布的IPO S-1表单后,大财政公司的英特网开发单位副总裁Tristan Louis估计了现在的服务器场包含下列各项[1] (http://www.tnl.net/blog/entry/How_many_Google_machines):

* 719个服务器架
* 63,272台机器
* 126,544个処理器
* 253,088 GHz的処理能力
* 126,544 GB内存
* 5,062 TB的硬盘空间

依照这一估计,Google服务器场组成了全球最强大的超级计算机,每秒运行速度至少三倍于地球模拟器。

[PageRank]

Google惟一被公开过的算法是使用一种自创的称为PageRank™(网页级别)技术来索引网页。该算法根据其他链接到特定网页的加权系数来整理。因此网页级别技术其实是根据由人所建立的链接来编排网页。此前许多与Google一样流行的搜索引擎使用基于关键词的方法来排列搜索结果。这种方法是以搜索关键词出现的次数或相关性来排列最后的搜索结果。先前的那些曾经比Google更流行的搜索引擎只是查看关键字在文中出现的次数或关键字于网页的关联程度。除了网页级别技术外,Google 还有使用其他秘密的标准来决定网页排名的先后。Google创新的搜索技术和典雅的用户界面设计使Google从第一代搜索引擎中脱颖而出。Google 并非只使用关键词或代理搜索技术,它将自身建立在高级 PageRank™ (网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google还对投票的网页进行分析。Google复杂的自动搜索方法可以避免任何人为感情因素。与其它搜索引擎不同,Google的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名。Google可以诚实、客观并且方便地找到网上有价值的资料。

Google不但索引并缓存HTML文件, 而且还索引其他12种文件类型, 包括 .PDF,.txt,.doc和.xls。除了文本文件,其他文件的是先转换为HTML版本后缓存的。 所以借助Google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如Word或是Excel。

使用者能自定义搜寻引擎。他们能设定一个缺省语言或使用 “SafeSearch” 过滤技术,设定在每页上被显示的结果多少。Google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头 1000 个结果(以每一页最多100个结果的方式显示)。

尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是藉由连接。这所谓的深网暂时不能被Google数据库所覆盖,举例来说包含了图书馆的目录,官方的法定(政府)公文,电话簿等。

[Google跳舞和SEO]

Google跳舞是一种经常被讨论的现象,Google跳舞指的是Google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对Google搜索关键字如www.yahoo.com得到的结果数是不一样的.

在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的Google服务器(举例来说,www.google.com, www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。从2003年的夏季开始,每月的搜索,索引和等级更新被不见断的持续更新所取代。这种改变大大减少了Google搜索结果的不稳定性。2003年11月15日,Google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,Google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。

Google目前的主要挑战之一是,它的算法和结果越是得到网路使用者的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升Google网页评级,以使他们客户的网站更多的被搜索到。Google已经设法减少了一些已知的使用这种方法的网站的Google页面评级。

SEO(Search Engine Optimization),即“搜索引擎优化”。由于Google实际上已经成为最流行的搜索引擎之一,很多网站管理员十分热衷于跟踪他们网站在Google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名Google搜索引擎优化服務,如在一些高流量的讨论区内刻意加入商业网站的链接,从而使该网站在Google的排名提高。这种“发明”虽然的确有一定成效,但这种收取客户金钱,在第三者的讨论区上大卖广告,一方面对讨论区的读者造成困扰,也侵害了讨论区的商业利益;这种做法也明显违反了商业道德。

还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在Google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为Google炸弹。现在Google算法更新的频率非常快,距猜测,现在算法公式中涉及的变量有300多个,PageRank™在整个Google算法中的影响力已经下降到 20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。

[对Google的批评]

当Google显然已经开始被大众作为首选的搜索工具後,Google也同时成为被批评的对象.在线新闻站点们不喜欢Google新闻的发行.2003年2月,Google封了Oceana这个有着两年半历史的非盈利组织的广告,他们抗议了一个主巡航线的排污方法.在华盛顿电子隐私信息中心的副执长Chris Hoofnagle警告说”因为法院正在变得更为经常的用电子记录作为证据,Google的风险正在变大…这是一个严重的隐私威胁.”

指责其产生的结果偏见的主张:2004年4月,Google接到了关于在其网站上搜索”Jew”(犹太人)时产生的结果的抱怨,反犹主义网站Jew Watch排在结果的首位.Google坚持他们的结果是由内容中立的算法计算的,Jew Watch网站 (http://www.google.com/explanation.html)这个网站因为被人在英文维基百科上放置了一个Google炸弹:Jew而排在结果首位的.Jew Watch在其他的搜索引擎上同样排名前列,如Yahoo!和MSN,但这些公司很少收到指责. Jew Watch的主页四月末开始从Google搜寻结果中排名下降.因为期间Jew Watch的网络空间服务提供商EV1取消了它的帐号,这个网站因此有几天完全无法访问.因为Google的蜘蛛程序在重复尝试後无法到达该网站,于是它的排名在Google索引里开始滑落. [2] (http://news.com.com/2100-1038_3-5200203.html)这个站点之後找到了另一家服务提供商于是其在Google中的排名在五月的第一个星期开始上升.Google在2004年4月23日在其”讨厌的搜索结果里”解释说”被我们删除的网站都是法律上强迫我们删除的”.

指责其进行自我审查的主张:宣扬种族优势和历史修正主义的网站已经在法国和德国Google上封锁很多年了,因为那些言论在当地不合法.简体中文版的Google也限制了上万个关键字,技术上讲,这等同于是参与了中国中央政府的控制政策。其它潜在的争议性网站如赤裸裸的色情图片网站大部分没有收到影响,无论如何(缺省支持的”SafeSearch”滤镜)网络过滤程序在Google图像搜索上的作用并不是很明显.

指责其滥用隐私的主张:有人指责Google利用惟一标识cookies破坏了访问者的隐私.这些cookies不会过期并且用户的搜索请求在未得到同意的情况下被用于广告目的.Google宣称cookies是用来获取用户在不同session和网站的参数选择的,用户可以自己选择关闭cookies. 一些人相信Google的GMail会过度的処理信件内容.支持这观点的人一般没有GMail帐号,因为他们不同意GMail的服务条款,但问题是向GMail发信的用户也会收到未经批准的信件内容分析.Google宣称使用GMail发送或接受的信件不会被人类分析,它只用来改进广告内容关联性服务.

对PageRank系统的批评:Google的PageRank系统已经受到批评,一些人宣称其’不民主’. 普通的Google批评者称这套系统更偏向于大型网站,并且页面重要性的的标准并没用经过同业审查.

[GBrowser]

在Google注册“gbrowser.com”这个域名之后,很多人相信它计划开发一个Internet浏览器,用以与Internet Explorer竞争。Googler们想秘密的开发浏览器。一个发言人暗示说,“Google可能再次发明浏览器技术。”Google聘请了了Adam Bosworth,他之前在微软工作并写了Internet Explorer,还有Joe Beda,他曾在微软工作并致力于开发下一代图像引擎。最近,Firefox的主要编写者也加入了Google,看来距离可以使用的GBrowser的日子不远了。