一个改变传统产业的新趋势已经出现:基于文章的阅读情况,一些网络新闻系统将读者可能会感兴趣的文章列出来,甚至可以将它们排序,把最有趣的新闻放在最前面。读者将不用翻上好几页来找到他们想看的新闻。记者也不用为了争取头版上有限的空间而激烈竞争了。

1

 
 
个性化新闻选择亦或报纸新生的契机
 
  报纸,这一记录人类活动的编年史,正在经历它几百年历史中最为重要的变革。这个常见的纸质产品每天早上依旧出现在报摊和过道上,但它出现在网络在线的数量正在激增。根据美国报纸协会的统计,在美国,阅读在线报纸的人数达到了3400万。
 
  而这仅仅是开始。网络降低了生产与发行的成本,而且为报纸开辟了全新的形式,因此,在线新闻的成长将不可避免地影响到传统的新闻产业。即使是很一般的网络服务器,只要它能获得足够的新闻故事,它就可以生成数千种不同版本的报纸。然而至今为止,大部分报纸网站和它的纸质版本看起来没什么区别。它们的首页往往和纸质版本一样,每天只更新一次,而且对所有读者提供同样的版本。
 
  这样的一致性没有必要。比如,当读者点击一条链接时,网络服务器完全可以生成一个新的网页,在线新闻网站每分钟都可以改变。并且,它可以生成不同的主页,针对每个读者生成上百万种不同的版本。除非能做到这一点,不然在线新闻将会越来越变得与你不相关,那些对你来说很重要的新闻则淹没在网络信息的海洋里。
 
  在保持相关性内容方面,报纸首先需要赶上已经定制首页的其他新闻网站。如谷歌新闻(Google News)、我的雅虎(My Yahoo)和Netvibes这样的新闻聚集器,就允许读者定制个人网页的布局,这样就可以突出最受欢迎或者评价最高的新闻。这些站点还根据主题或者类别将新闻聚类,使读者将注意力集中在他们最感兴趣的内容上。这样的创新很有用,但是它们的应用还是远远不够。比如,My Yahoo要求用户自己定制网页,他们需要自己去改变设置,而不是根据用户的需求自动改变。
 
  这些功能并不遥远——它们实际上已经在Findory.com新闻聚集站点上应用了,笔者在2004年至2007年曾运作这个网站。Findory根据过去的阅读情况,为每个读者建立了一个独特的、个性化的首页,读者可以像亚马逊(Amazon)推荐书籍信息一样浏览自己感兴趣的内容。
 
 
一个成功的新闻推荐系统是如何运作的
 
  在美国,报纸是一个价值550亿美元的产业,尽管这个产业总是被认为遇到了麻烦,很多读者依旧衷情于他们自己家乡的报纸。因为上面很可能有和他们有关的新闻,但是他们越来越不愿意啃完所有文章来找到和他们有关的新闻。报纸已经淹没在信息的海洋里了,而个性化的新闻推荐可以成为报纸的“救生员”。
 
  为了了解一个真正成功的新闻推荐系统是如何工作的,首先考虑一下那些已经开始使用推荐系统的站点,如Amazon和Netflix。这些系统的一个本质特征是不仅适应你的行为,还学习别的客户的行为。这里的假定是,有很多像你一样的人,他们享受着你还没有看到的一些东西——通过一些算法搜索网站上的日志、评介,以及交易记录来发现和你有类似喜好的人,然后查找这些人喜欢的物品,并且推荐给你。
 
  一般来说,如果推荐系统可以找到和你买了很多相同物品的人,那么系统会将他们购买了的、而你还没有买的东西推荐给你。这种类型的算法往往被称为协作过滤或者群体过滤,因为它们利用社群中有相似想法的人的偏好来过滤和排列你所看到的东西。
 
  因为将推荐算法应用到信息领域是很难的,很多网站试图用别的方法来制作个性化的新闻。My Yahoo是最大的定制化新闻站点之一,它于1996年7月开始使用。用户可以从上百个模块中做出选择——包括新闻、天气、体育以及股票价格——用户选择网页上这些模块定制的网站很容易建立起来,读者易于理解,而且利用在线新闻的优势,可以将不同的首页显示给不同的用户。通过定制,读者可以注意那些对他们来说最重要的新闻。
 
  Google News可能是个性化新闻站点中最顶尖的,尽量将个性化过程自动化,因而走的更加深入。举例来说,它使用了一种被称为是间接个性化的技术,根据读者的喜好推荐不同的内容给读者。这是新闻产业中具有进步意义的创新。首先,我们来分析一下Google News是怎样完成两项看似很简单的自动化过程:排序和新闻的聚类。
 
  Google News的排序搜索结果的方法非常出名。在处理新闻时,针对某个特定的读者群体,它要了解什么新闻对这一群体最有趣和最重要的,并且不断更新其个人主页。Google News从不同的消息来源搜集上百万篇文章,因此它不可能像其他一些新闻站点那样,让编辑来设定首页的布局。克里什纳•巴拉特(Krishna Bharat)领导着Google News的开发工作,他说Google News使用的排序算法所依据的因素有:新闻来源的权威性、文章的时效性、文章是否原创,网站编辑将文章安放的位置,文章所述的范畴和对读者的影响力,以及文章的受欢迎程度。
 

2

 

新闻聚类——必须应对的挑战
 
  Google News还根据相同的新闻事件进行新闻聚类。聚类可以让读者从新闻的多样性中获益,这对关注国际新闻的读者尤其有用。但是基于同一事件将新闻聚类会遇到一些子问题,而有些子问题相当难解决。其中一个是如何去定义“子问题”,这是一个不明确的而且相当难界定的问题。
 
  Google News通过一个被称为层次化凝聚性聚类的技术来解决这个问题——将类似措辞的新闻放在独特的“堆”中。它首先根据内容来搜寻那些使用相同关键词或短语的文章;那些有足够相同词汇的文章被认为是报道相似主题的。每个堆中的文章根据相似度连接起来,可以将它想象成一棵树状结构,而文章就是这棵树的叶子。如果我们抓住这棵树的某一枝杈,那么这一枝杈上的叶子都是相似的叶子——也就是说,这些文章是关于同一个事件的。枝杈上的叶子就组成了一个聚类。
 
  当然,这棵树是一直在变化的,而关于一个一般事件的新闻越来越多时,至少有两篇文章要成为该事件报道的内容,它们在相似度上的要求就被提高了,聚类因此可能会发生变化。可能会有新的聚类产生,也可能有旧的聚类分裂或组成新的组合。组合是根据现有的新闻进行调整的,而新闻则是一直在变化的。
 
  如果最终目标是一份全都是你想看的内容的报纸,那么这些聚类和排序策略也就只能做到这个程度了——可以判断内容新的发展是否是你感兴趣的,但是不可能达到逻辑上的飞跃——例如通过了解过去对于搜索外星生物的兴趣,推断出你会对在外星系里找到类似于地球的行星的新闻感兴趣。
 
  要作出这种推断就必须找出每个读者的兴趣所在,以及和这些兴趣相关的新闻,就如同Amazon和Netflix推荐书籍和电影那样。为了达到这个目标,Google News推荐引擎旨在找到对应每个读者的头条新闻,而不只是显示一般大众关心的头条新闻——推荐系统分析所有读者过去和目前的点击情况,以及对现有新闻和目前的浏览,然后生成一组读者可能感兴趣的新闻。
 
  因为Google News上的文章数和用户数都是相当巨大的,使用传统的聚类方法是行不通的。所以Google News测试了3种更加先进的算法来推荐新闻:MinHash聚类、概率化潜藏语义索引和共同访问计数。
 
  对每则新闻以及每个点击它的读者,包括读者点击的其他所有新闻(那些被读者共同阅读过的新闻Google认为是共同访问过的)。所有共同访问的文章是根据历史数据计算出来的,所以在网站数据库上的计算量虽然很大,但相对而言还是很快速和有效的。
 
  一旦所有用户被集中到聚类中,并且共同访问的文章列表被建立了起来,那么找到某个用户感兴趣的文章基本上是数据查询而已。Google News首先查看这个读者有关的聚类以及他最近点击过的文章,随后通过那些聚类中最受欢迎的新闻和共同访问过的文章,建立一个候选推荐文章的列表。然后将这些候选文章排序并决定哪些将被推荐给读者。
 
  在2007年国际万维网会议(International World Wide Web Conference)的一个报告中,Google的阿宾丹•达斯(Abhinandan Das)和他的两位同事称,这样的新闻推荐系统比标准的新闻列表提高了38%的点击率。换句话说,推荐系统很明显的帮助读者找到那些他们感兴趣的新闻。
 
  提出间接新闻个性化系统的不只是Google一家。很多公司在研究这个问题。如Findory为每个读者建立了一个独特的新闻首页,将全世界上千个来源的新闻和博客文章集中起来,并且根据每个读者过去的行为来适应他们的兴趣。和别的网站不同,Findory提供新闻给每个读者的过程是完全自动的,没有任何手动设定。用户只能通过阅读Findory网站上的新闻来改变他的配置文件。
 

3

 

新闻的推荐形成了一个社会网络,每个读者都因为共同的兴趣而加入
 
  Findory推荐引擎的目标是让读者去帮助别的读者。当一个读者读了一篇文章后,Findory自动让这篇文章共享给其他读者——也就是说,Findory认为对文章的点击就是对这篇文章感兴趣,而有类似兴趣的读者可能也会对它感兴趣。当更多的人点击同一篇文章时,这篇文章有用而且有趣的证据就得到了展现,Findory就会在更广的范围内推荐这篇文章。
 
  和直接的社会网络不同,Findory所有的关联和共享都是间接的。匹配读者的工作是在后台静悄悄地进行。这种做法有两个好处:一个是它能保护隐私——你不知道系统中哪些读者是和你类似的;另一个是系统可以超越你的网络,超越你认识的人,去找到那些你从没见到过的这个群体中的专家。
 
  在个性化信息的世界里,新来的信息将会按照联系人的重要程度和中断的代价排序。不仅仅是报纸,所有的站点都将按照你的兴趣将文章重新组织和排序。搜索引擎将适应你的行为,根据你的兴趣作调整,并且关注你需要的信息。像电子邮件和电子数据表这样的普通软件,会将相关信息在你需要的时候提供给你,这甚至不需要一个直接的查询。甚至连广告都会变得有帮助,变得与你相关。
 
  所有的信息来源——包括新闻、讯息、广告、通讯录以及网络文档——都应当基于相关度与需求来排序。推荐与个性化可以适应你的行为,根据你的兴趣作调整,以及提供相关的信息,而不是让你自己去做乏味的检索工作。