很多人都听说过大名鼎鼎的PageRank算法,它能够自动判断网页的重要性,也是决定搜索结果排序的关键因素之一。但在很多时候,仅仅凭重要性远远无法完成一项排序。计算机和我们都有很多东西需要学习。
·学会排序
日常生活中存在多种多样的排序。我们最熟悉的,比如娱乐圈里的“超女”、“快男”,体育界的各项赛事,在学校里经常会碰到的成绩排名等等。
“其实排序是一种关系的表现,不像以前比如分类、回归是一个物体或一个对象本身的属性,”和李航一起做该课题研究的刘铁岩博士告诉记者,“以前说一个网页,它到底是讲新闻还是讲体育的?其实是个绝对的事,拿到这个网页一切都知道了,是它的本身的属性。但排序是指这一个网页跟别的网页之间比较的一种关系。比如以前可以叫做一元学习,那么现在则是一个更高元的、更高阶的一个问题。”
李航觉得,这一点对整个传统的机器学习都是一个很大的挑战。因为按传统观点,会存在一些基本假设,每个样本背后都是同样一个规律在控制。但是对于排序,“其实我们想要挖掘的是要满足对象之间的那种关系,这就不能用以前那种假设去看待了,至少在某种情况下,已经不完全成立了,所以会有一些新的理论和实践要发生”。
与之前的“Pairwise”不同的是,李航和刘铁岩他们所提出的新研究方法“Listwise”是基于一个列表的学习,也就是以一个列表为基本的学习单元,“因为一个列表本身就包含了一些排了序的文档,某些关系已经嵌在这样的表达方式里。”刘铁岩说,“所以我们不需要像以前研究时的那种假设,文档之间会有相对大小的关系,这些都已经在我们学习单元里面了,这使得基于此的一些理论和实践都会比较顺畅,和以前有较大不同。”
Listwise方法之所以受到关注,是因为在评价排序结果好坏的时候,它把查询词对应的所有文档通盘考虑,全局衡量,而以前的工作把目光中在单个文档或者一对文档之上;而且可以对文档之间的关系,如相似度等进行建模,因此可以定义更加有效的排序函数;另外,由于是列表级别,它可以充分利用文档在列表中的位置信息,因此可以更加强调排在前面的文档,而这与用户的体验更加一致。
阅读小技巧:可以键盘左(<-)、右(->)方向键翻页
相关文章
| 投票调查 | |
|---|---|
编辑推荐
- 酷讯的生活方阵
- 到公司去(上)
- Google抬高门槛
- 最高的战争
- 跳上“虚拟化”快船
- SP之困
- 读者来信:ERP不是...
- 到公司去(下)
- “宝宝”树下
- 战胜华尔街
- 拯救固网
- PPLive,活着的感觉
- 宜家创业史
- 银行排队求解

