3月12日早间消息,谷歌完成一次搜索请求,时间不足一秒、平均往返距离却要约2400公里。每天谷歌都有200多项改进算法的在线实验,一个想法要通过多道考验才能付诸执行。而在个性化搜索日益重要的今天,谷歌算法改进也面临着新的挑战。
来自官方的数据显示,从2003年到现在谷歌搜索已经接受超过4500亿个搜索请求。而用户每天发出的搜索请求中,有16-20%是全新的关键词。
一个基本的搜索过程分这样几步:提交搜索请求->发送->筛选分类->查找索引->选择网页->结果排名->结现结果。谷歌给出的解释说,一个请求会被分发到数千个数据中心,然后根据关键词进行匹配,再根据数百个指标对得到的数据进行排名。
这个复杂的过程通常在一秒内完成,但平均每个谷歌搜索的关键词往返于用户电脑和数据中心的距离约为2400公里(1500英里)。
“很多人认为谷歌已经解决了搜索的问题,但是在谷歌看来搜索的发展才刚刚起步。如果说搜索是一本书,那谷歌才刚写完了开篇”,谷歌工程总监斯考特-霍夫曼(ScottHuffman)在谈到搜索时说,十多年来谷歌搜索的算法一直在不断改进。
每年谷歌搜索结果都会改变20-30%左右。霍夫曼的主要工作之一,就是对谷歌搜索质量进行评估,在他看来这个过程远比外界看到的复杂。
以去年为例,在众多的搜索算法改进构思中,有41831项进行了必要性评估,这其中又有9250项进行了小规模实验,进而又有7363项进行了在线实验,最终有520多项改进被付诸实施。霍夫曼总结谷歌改进算法的方式为:数据驱动、实验评估。
谷歌搜索平均每时每刻都有200多项实验在进行;而在评估的过程中,既会借助基于统计学搭建的模型,还依靠多种语言的独立评估员。
霍夫曼表示谷歌搜索算法近期的主要改进,可以归纳为三个方面。
·新鲜度算法调整:在某些情况下,谷歌需要为用户提供最新搜索结果,比如即时新闻、定期发生的重大事件以及内容频繁更新的话题等。如果搜索“奥运会”,用户会得到与即将举办的伦敦奥运会相关的最新搜索结果,而非关于1984年奥运会的陈旧信息。
·优质网站算法调整:这对包含原始信息、研究调查、深度报道、精准分析等内容的高质量网站十分有利,提高了它们在搜索结果中的排名。
·页面布局算法调整:这一改进关注用户在点击搜索结果后所看到的网页布局,提升网页信息的丰富程度,提高信息容易被搜索到的网页的排名。
除此以外,谷歌还计划将更多社交、移动、位置等信息元素,更好的与搜索进行整合。这一方面会让搜索结果更加的个性化,但同时也给谷歌带来新的难题:如何衡量并提升越来越个性化的搜索结果。此前的实验方式必须有所调整。
霍夫曼对此解释说,对于受个性化影响较大的因素,谷歌会采用更多的在线实验方式进行考察。例如考察一个用户的跳转和停留时间,通过统计模型对相关数据进行分析、判断。此外,还会在得到允许的情况下获取评估员的个人信息,并据此改进搜索结果。
“新的算法改进想法往往是在解决问题时产生的”,霍夫曼说,目前谷歌在搜索算法开发上投入的时间,已经超过1000人工年。