阿里广告技术最新突破：全链路联动——面向最终目标的全链路一致性建模

©作者 | 王哲

单位 | 阿里妈妈展示广告算法专家

研究方向 | 广告/推荐/深度学习/NLP

引言

深度学习时代的到来给搜推广业务带来了一波巨大的红利，一方面是深度学习模型带来的技术红利，另一方面是 GPU/NPU 等硬件带来的算力红利。但是随着业务的不断发展，技术水位的不断提高，深度学习时代的技术和算力红利也渐渐耗尽，级联排序系统的召回/粗排/精排/重排等各模块的独立迭代也逐渐遇到瓶颈。后深度学习时代如何进一步破局，技术如何进一步突破，成为很多团队亟待解决的问题。

我在 2019 年将阿里妈妈展示广告的粗排排序系统从向量内积模型升级成实时深度全连接模型 COLD 之后，也遇到了同样的问题，粗排和精排 PCTR 模型的差距已经很小，进一步的优化升级难以取得进一步的线上收益。

为了解决这个问题，我站在整个系统链路的角度，在考虑模块自身特点和算力约束的情况下，提出了全链路联动这一全新的技术方向，解决了各模块因为目标不一致带来的链路损耗和目标对齐问题，同时解决各模块因为训练和在线推理不一致带来的的样本选择偏差问题。目前这个工作已经在阿里妈妈展示广告主要业务落地全量，给阿里广告收入带来 10 个点以上的巨大增长。

背景及现状

阿里妈妈展示广告采用多阶段级联排序架构，对于前链路系统（召回/粗排）来说，需要在满足算力 RT 约束的情况下，选出满足后链路需求的集合，各模块情况如下：

近些年，深度学习技术在搜索推荐广告等场景取得巨大成功。技术和算力上的红利极大的促进了业务的发展。但是随着存量红利逐渐消耗殆尽，很多模块的单点迭代和技术创新都逐渐进入深水区，逐渐遇到瓶颈。

问题和挑战

我在 2019 年推动将阿里妈妈展示广告的粗排排序系统从向量内积模型升级成实时深度全连接模型 COLD，在引入交叉特征的基础上可以进行实时训练，实时打分。此后因为粗排和精排 PCTR 模型能力差距得到显著缩小，粗排 PCTR 主模型在技术上的单点迭代升级开始遇到瓶颈。为了给粗排以及整个展示广告技术打开发展空间，我的目光从粗排转向整个级联排序系统，站在全链路的视角重新审视整个展示广告的技术，我发现因为打分规模/算力 RT /独立迭代等因素影响，各模块存在技术水位差以及目标不一致带来的链路损耗问题：

召回：很多召回通道都是先兴趣最大化再 RPM 最大化，和系统平台侧的主要目标 RPM 存在 gap，有可能会导致一些中低兴趣但是高 RPM 的广告无法进入到后链路。
粗排：按照 ecpm=pctr*init_bid 的方式进行排序，粗排使用的是广告主的原始 bid，但是精排会基于多目标模型打分（点击率/收藏加购率/成交率模型）以及策略调价模块（基于广告主和平台诉求对广告出价进行调整）对广告主出价进行调整，因为在 bid 上和精排存在 gap，同时粗排在 pctr 模型能力上和精排也存在差距。

同时整个级联排序系统还存在明显的样本选择偏差问题（SSB，Sample Selection Bias）：因为模型训练基于的展现反馈样本空间和线上打分样本空间存在较大的分布差异，影响了模型的推理效果。越靠近前链路，这个问题就越严重。

技术方案概述

解决技术水位差和目标不一致问题的一条传统技术路线，是将精排的精准值预估能力向前链路迁移。粗排的发展历史很好的诠释了这条路线：从 LR 等传统机器学习模型到向量内积模型，再到现在的实时全连接结构 COLD，这些技术均先在精排落地，后面再结合粗排的算力RT特点进行迁移适配。

但是随着迭代进入深水区，这种方式的弊端也逐渐显现。一方面是因为精排内部逐渐复杂化（预估目标越来越多，模型越来越复杂，调价策略等逻辑也越来越多）。另一方面是越往前面临的打分规模也越大，特别是召回阶段打分规模在千万级别。将精排技术向前链路迁移面临的算力 RT 代价及维护成本越来越高，边际效应递减也越来越明显，导致很多精排技术难以直接落地。如果继续沿着这条技术路线迭代，是否存在新的破局空间？

沿着精准值预估的技术路线，我在召回提出了新的可以面向任意目标的全库向量召回技术 PDM（Point based Deep Match Model）。在粗排提出了解决粗排样本选择偏差问题的粗排 ESDM（Entire Space Domain Adaptation Model）模型。

除了精准值预估技术路线之外，是否存在另外一条算力 RT 代价较低，迁移成本可控的技术路线呢？

仔细思考发现前链路存在几个特点：

前链路的目标是选择满足后链路需要的集合。是否可以放弃对值的精准预估，以集合选择为目标，从而释放一部分算力？
精排阶段的排序结果，是通过用户反馈数据->模型训练->多目标模型打分->策略调价这样一条复杂路径处理之后得到的。是否可以跳过精排内部复杂的处理过程，以排序结果本身为学习样本和目标，直接进行端到端的学习？这种精排加工处理后的数据，和用户反馈数据相比，学习难度可能更低。

基于上面的特点，我提出了一条全新的以学习后链路为目标的集合选择技术路线，改变了全链路技术体系只依赖用户展示反馈数据的现状，将精排阶段的排序样本引入到前链路召回和粗排的模型学习过程中，在基本不增加算力 RT 的情况下提升了全链路的目标对齐能力。我在召回提出了通过端到端 Learning to Rank 的方式，以学习后链路的序为目标的召回技术 LDM（Learning to Rank based Deep Match Model），并在一定程度上解决了召回阶段的样本选择偏差问题。

召回 LDM 的成功证明了以精排阶段的序为目标，通过 LTR 技术端到端进行学习，在在展示广告业务是可行的，也给粗排的进一步迭代打开了思路。因此我进一步提出了通过端到端 Learning to Rank 方式，以学习后链路的序为目标的粗排LBDM（Learning to Rank based and Bid-Sensitive Deep Pre-Ranking Model）模型，同时创新性地解决了 LTR 技术在 bid 敏感性上的问题，保证了广告主 bid 对排序的单调翘动能力。

对于样本选择偏差（Sample Selection Bias，SSB） 问题，在缺乏监督信号的情况下想要完全解决是很难的。同时精排模型由于模型能力更强，对于未曝光样本的打分更准确。

对于样本选择偏差问题来说，如何定义问题比解决问题更为重要！

对于级联排序系统中的前链路模块来说（召回/粗排），样本选择偏差问题可以拆解成两个子问题：

提升前链路模块和精排模型在自身打分空间上的打分一致性。
解决精排的样本选择偏差问题。

这里先解决第一个子问题，即提升前链路模型和精排模型在模块自身打分空间上的一致性问题，这样可以在不动精排的情况下也能拿到线上收益。后面再集中精力攻克精排的样本选择偏差问题。

精准值预估技术

5.1 面向任意目标的全库向量召回技术PDM

召回阶段需要对齐的目标，按形式往往可以拆分成两种：

直接目标：如 CTR。这类目标一般可以直接基于线上的 feedback 反馈数据用全库召回的模型进行预估。例如对 CTR 来说，因为仅仅需要保证点击样本排到未点击样本前面，甚至不需要保证模型的 PCTR 预估准度，在构造样本的时候一般可以用点击样本作为正样本，随机采样作为负样本。
间接目标：如 RPM（RPM=CTR*Bid），GMV（GMV=CTCVR*Price）等。这类目标的排序公式，往往存在一个或多个加权因子，难以直接用线上的反馈数据（点击，转化等）表示。这个给召回建模带来了很大的困难。

RPM 是一个很典型的间接目标，也是展示广告在平台侧最重要的指标之一。如何在千万召回规模下，在满足算力 RT 约束的情况下，找到 RPM 最大的广告是一个业界技术难点。这里我突破了这个技术难点，提出了新的可以面向任意目标的向量召回技术 PDM（Point based Deep Match Model），不仅可以解决召回阶段的 RPM 最大化问题，也可以用于 GMV 等其他间接指标。

首先引入向量内积最大化检索技术。这里选择 ALSH（Asymmetric LSH for Sublinear Time Maximum Inner Product Search）算法，因为该方法无需训练，并且效果更好。后面的技术难点就转化成了如何将 eCPM（eCPM=PCTR*BID）表达成两个向量内积的形式，对于 PCTR 部分，训练了一个双塔结构的向量 PCTR 模型，对于 bid 部分使用广告主的原始 bid，所以：

eCPM 可以表示成：

sigmoid 函数有一个特点，在值比较少的时候（一般是少于 0.1 的时候）, 公式可以进一步近似成：

对两边同时取对数，可得：

为了进一步将公式表达成两个向量内积的形式，这里用 ua 的期望来代替 ua：

经过转换，最终将 eCPM 表达成了两个向量内积的形式。后续通过向量内积最大化检索算法，即可以较低的算力和 RT，在全库召回 RPM 最大的广告集合。这种技术不仅可以用于 eCPM 最大化召回，也可以用于任意目标，例如要实现 GMV 最大化召回，只需训练一个 PCTCVR 向量模型，并用价格进行加权，即可召回 GMV 最大的商品。

对于向量 PCTR 预估模型，实验发现直接使用曝光点击样本训练一个双塔结构的向量内积模型效果很差。因为曝光点击样本和召回面对的全库样本在分布上有很大的差异，即召回的样本选择偏差（SSB, Sample Selection Bias）问题。曝光点击样本属于较难分类的样本，模型能学会区分较难的样本，并不代表也能对简单样本进行很好的区分。为了缓解模型在召回上的 SSB 问题，同时进一步提升和精排的对齐效果，这里做了如下技术改进：

首先是样本层面，包含 clk/pv/unpv 样本，这里 unpv 样本指的是进入精排打分但是没有展现的样本。

其次在训练和网络结构层面：

向量模型和精排模型联合训练：向量模型和精排模型共享部分 embedding，同时向量模型仅在展现样本上以交叉熵loss进行训练，精排模型也仅在展现样本上以交叉熵 loss 进行训练。
batch 内随机负采样：为了提升模型对简单样本的区分能力，缓解 SSB 问题，这里引入随机负样本。为了减少实现成本，这里给每条点击正样本在 batch 内随机选 k 个 ad 向量，和这条正样本的 user 向量拼在一起组成随机负样本。为了避免随机负样本影响 pctr 预估精度，这里在原有双塔网络基础上额外构建了一个双塔网络，新双塔网络和原双塔网络的前几层参数共享，输出为 aux_pctr。auc_pctr 会会引入随机负样本以交叉熵 loss 参与训练。
unpv 样本上的 distill：这里将精排未展现样本以 distill 方式用精排 rankpctr 对向量模型训练进行指导，通过这种方式来提升召回模型和精排模型在召回空间上的打分一致性，从而缓解召回阶段的 SSB 问题，同时训练过程中要通过 stop_gradient 的方式来屏蔽蒸馏 loss 对精排训练的影响：

PDM 框架有如下优点：

将 pctr 和 bid 进行了解耦，当广告主的 bid 发生变化以后，可以在不重新训练模型，不重新产出向量的基础上，通过对原广告向量进行实时 bid 加权，来生成新的广告向量，实现对广告主调价的分钟级响应。提升了召回阶段对广告主 bid 的敏感性。
可以实现策略的实时调控，通过调节 bid 权重来对 CTR 和 RPM 进行平衡，可控性强。
可以显式地对齐后链路的各种间接目标，可解释性强。

线上效果：CTR+1.5% , RPM+2%

5.2 全空间粗排ESDM模型

粗排模型往往使用 pv/click 样本训练，但是粗排在线推断空间远大于 pv/click 样本空间，展示广告目前粗排的打分量接近 2W，两个空间样本分布存在很大差异，粗排阶段存在较严重的样本选择偏差（Sample Selection Bias，SSB）问题。

分析粗排和精排模型对 unpv/pv/clk 样本的打分分布，也可以看到，粗排模型对于 pv/unpv 样本的区分能力要弱于精排模型：

对于粗排打分空间中的 unpv 样本，要让粗排模型在缺乏监督 label 的情况下进行精准预估是很困难的。之前也尝试过通过引入外部样本来缓解粗排的 SSB 问题，但是并没有取得很好的效果。主要原因是因为外部样本存在大量噪音，外部样本去噪问题的解决难度并不比样本选择偏差问题低。

回到粗排的目标以及粗排精排的关系，重新思考样本选择偏差问题，这里我把粗排的 SSB 问题重新进行了定义，拆解成了两个子问题：

粗排模型和精排模型在粗排打分空间上的分布一致性问题。
精排的样本选择偏差问题。

对于粗排模型和精排模型在粗排打分空间上的分布一致性问题，这里我提出了全空间粗排 ESDM (Entire Space Domain Adaptation Deep Pre-Ranking Model）模型来解决。而对于精排的样本选择偏差问题，可以考虑通过引入外部样本或者在本场景引入探索机制来获得无偏样本等方式，来解决这个问题。

样本上，首先构建了一条包含 clk/pv/unpv 样本的实时样本流。

训练上，粗排模型结构和实时深度全连接模型 COLD 保持一致，和精排模型一起进行联合训练，embedding 共享，其中精排模型只基于展现样本通过交叉熵 loss_rank 进行训练。粗排模型除了在展现样本上以交叉熵 loss_dqm 进行训练之外，针对 unpv 样本，以知识蒸馏（Knowledge Distillation）的方式对精排模型 pctr 进行学习，通过 soft loss 的方式进行分布迁移：

为了提升模型对 pv/unpv 样本的区分能力，这里还将 click 作为正样本，pv 和 unpv 作为负样本，以 hard loss 的方式引入进来，但是直接引入 unpv 样本，会导致粗排模型的 pctr 预估准度受到影响。因此在粗排主模型结构上，额外引入一个辅助网络，辅助网络前几层和主网络共享，只在最后几层有自己独立的参数，辅助网络输出为 aux_pctr，将 hard_loss 作用到辅助网络 aux_pctr 上，通过参数共享的方式间接影响主网络：

最终 loss 为：

这里 pctr 得分，除了可以来自一起联合训练的精排模型之外，也可以使用线上精排模型打分的 pctr 分数，只不过考虑到在离线不一致等问题带来的分布差异，最好在粗排的 aux_pctr 上去 distill。这样的好处是粗排可以跟随线上精排自动升级，维护成本较低，风险在于线上精排模型打分出现问题，也会影响到粗排训练。

下面对比了一下粗排 ESDM 模型和 base 模型的打分分布，可以看到粗排 ESDM 模型对 pv/unpv 的区分能力得到显著增强。同时在 pcoc（精排 pctr /粗排 pctr）指标上，粗排模型在 unpv 样本上的 pcoc 从 1.6 降低到 1.1。这些说明粗排模型和精排模型在粗排打分空间上的打分一致性得到了加强，样本选择偏差问题得到缓解。

线上效果：CTR+3% , RPM+1.5%

集合选择技术

6.1 以学习后链路的序为目标的端到端召回技术LDM

基于精准值预估技术的召回 PDM 模型，使用的是广告主的原始 bid，但是精排的策略调价模块会在广告主原始 bid 基础上考虑广告主和平台利益对 bid 进行调整，因此 PDM 仍然存在目标对齐上的问题。

为了解决这个问题，我在召回阶段提出了以精排阶段的序为学习目标，通过端到端 Learning to Rank 的方式进行学习的召回技术 LDM（Learning to Rank based Deep Match Model）：

首先引入同一次请求内，精排阶段的参竞日志，在构造样本 pair 的时候把展现样本做为正样本，参竞未展现样本作为负样本，让模型学习将展现集合排在最前面，通过交叉熵 loss 进行学习。

这里仍然存在 SSB 问题，为了保证模型对简单样本的区分能力，同样引入了随机负采样 loss，以展现作为正样本，batch 内随机采的作为负样本。和召回 PDM 模型类似，同样额外构建了另外一个双塔网络，和原双塔网络前几层参数共享，新网络以交叉熵 loss 的方式进行学习。

后面进一步尝试了，将同一个 session 内的样本，按最终系统目标排序后，进行分段，段间组 pair 并通过 pairwise loss 进行学习，但是没有取得进一步的效果提升。推测原因是因为召回阶段的精度需求没有那么高。

召回 LDM 技术有如下优点：

通过端到端 LTR 的方式隐式地学习了后链路多目标打分和调价模型的信息，兼顾了平台，广告主及用户诉求。
后链路升级后，通过精排参竞日志样本回流即可实现自行升级，维护成本较低。

线上效果：CTR+3% , RPM+4%

6.2 以学习后链路的序为目标的端到端粗排LBDM模型

展示广告的粗排阶段按照 = pctr*init_bid 的方式进行排序，而精排阶段会基于多目标打分（点击率/收藏加购率/成交率）的分数，通过策略调价模块对 bid 进行调整。因此粗排在 bid 部分的和精排存在较大差异。而如果沿着精准值预估路线，直接将精排阶段的多目标打分能力和策略调价能力迁移到粗排，会面临巨大的算力 RT 开销。

召回 LDM 模型的成功，证明了引入精排参竞日志进行学习这条技术路线是可行的。因此我提出从集合选择视角出发，在粗排阶段通过端到端 Learning to Rank的方式，以精排阶段最终的序为学习目标进行建模的粗排 LBDM 模型（Learning to Rank based and Bid-Sensitive Deep Pre-Ranking Model）。这种方式彻底改变了原有的数据循环链路，改变了原有只依赖广告曝光展示样本的方式，新增了从精排到粗排的数据循环通路。

具体来说，这里首先构建了一条包含精排参竞样本的实时 ODL 数据流。

然后取同一个 session 下的精排参竞样本，按最终排序进行分档

档间样本两两组成 pair，档内样本不组 pair。因为粗排阶段只需要选出 top k 集合，并不关心集合内的顺序，因此通过这种构建 pair 的方式，来使粗排模型更贴近自己的实际目标。

接着基于 pairwise 的 loss 进行训练：

模型结构上，和原来的实时深度全连接模型 COLD 保持一致，也包含用户特征，广告特征，交叉特征，实时特征等，整个模型实时训练，实时打分。后面进一步尝试了通过 listwise loss 的方式进行建模，但是没有进一步的收益，因此最终线上仍然基于 pairwise 的 loss。

广告 bid 是广告主的重要抓手，广告主通过对出价的调整参与到广告系统的博弈中，保证广告主出价对排序的单调翘动能力和敏感性至关重要，传统的 pairwise loss 无法保证这一点。为了解决这个问题，我提出了新的 bid 单调型 pairwise loss：

新的 loss 可以保证，广告主出价对排序的翘动能力是线性单调递增的，同时和其他方式相比对训练收敛的影响也比较小。

粗排 LBDM 模型线上打分阶段，也采取 |ltr_score|*init_bid 的方式，模型是实时训练，实时打分的，以保证对后链路分布的快速捕捉能力。这种方式完全兼容之前 pctr*init_bid 的排序方式，线上只需要把粗排 PCTR 模型替换成粗排 LBDM 模型即可，线上系统也不需要做任何改造。ltr_score 本身没有物理含义，但是这种训练方式使模型学出来的是一个类似 pctr* 调价系数的分数，即一方面可以拟合精排 pctr 模型的信息，另一方面可以拟合策略调价模块的信息。

粗排 LBDM 模型有很多优势：

通过端到端建模技术，减少了精排阶段内部多个模块的误差传递问题
放弃了对值准度的要求，降低了学习难度，样本利用率更高，与粗排集合选择的目标也更为贴近。
基本不增加算力和 RT。
通过实时样本回流的方式，自动跟随后链路进行升级，极大的降低了维护迭代成本。

这里也从客户侧视角分析了一下粗排 LBDM 模型对不同行业和不同粒度广告主拿量能力和 ROI 的影响，发现和粗排 PCTR 模型相比拿量变化较小，ROI 等客户侧指标均有提升。

考虑到粗排 LBDM 模型以后链路样本为学习目标的训练方式有可能加剧马太效应，因此也分析了粗排 LBDM 模型对不同曝光量广告的拿量影响，发现变化不大，说明粗排 LBDM 模型基本不会加剧马太效果，这个有可能是粗排打分集合以及广告主预算限制导致的。

线上效果：CTR+8% , RPM+5%

利用-探索（Exploit&Explore) 全链路通道

集合选择技术路线大大提高了整个系统链路的目标对齐能力和效果，但是由于依赖精排阶段的样本进行学习，有可能对整个系统的探索发现性造成影响。而精准值预估技术受限于算力 RT，在对最终系统目标的对齐能力上往往有限。

在以往的级联排序系统中，因为前链路各模块在目标和模型能力上和后链路最终目标往往存在 gap，从而在一定程度上隐式地存在一个探索机制。但是这种探索机制是存在问题的：一方面以限制整个链路在记忆利用（Exploit）上的的能力为代价，牺牲了最终的系统目标和效果，另一方面由于探索（Explore）和利用（Exploit）耦合，也难以专门提升优化探索的效果。

全链路联动技术为了解决这些问题，将利用（Exploit)和探索（Explore）显式的拆分成两个全链路通道，分别进行极致的优化：

全链路利用通道：

专注于最终系统目标对齐和优化。
以集合选择技术为主。

全链路探索通道：

专注于客户侧指标优化，如新广告冷启。
以精度值预估技术为主。

利用-探索（Exploit&Explore) 全链路通道，一方面可以使整个全链路系统可以在没有干扰负担的情况下，去极致的优化对齐短期的系统目标。另一方面也可以从长期生态着眼，去心无旁骛进行探索上的优化提升并尽可能减少对系统效果的影响。探索通道的结果也可以快速被利用通道吸收放大，从而促进整个系统的良性循环。

当然，以集合选择技术为主的全链路利用通道，会不会造成整个系统的数据闭环和技术上的隐形死锁，仍然是一个需要持续研究和观察的事情。阿里妈妈展示广告在召回阶段落地的 LDM 模型，确实会在一定程度上加剧马太效应，但是因为多路召回的存在，因此对整个广告系统的影响是可控的。

而粗排落地的 LBDM 模型，并没有观察到明显的马太效应，有可能是因为粗排只是一个中间模块，因此在马太效应上的影响比较有限。同时也确实观察到，粗排 LBDM 会降低 1 天内新广告的展现占比，但是提升 7 天内新广告的展现占比。这个说明集合选择技术会在前期样本缺乏的情况下打新广告形成打压，但是在后期数据充足的情况下，会迅速起到一个放大作用，从而加快新广告的收敛过程。

当然广告系统本身，因为有 bid 的存在，广告主通过对 bid 的调整参与到整个数据循环中，变相的形成了一种动态的探索机制，对拿量能力被削弱的广告主有可能通过提升 bid 来重新获得相应的流量。集合选择技术在召回与之前相比提升了 bid 对召回结果的影响程度，在粗排仍然保持足够的 bid 敏感性，因此甚至有可能加强 bid 对数据循环的扰动能力。广告主之间在 bid 上的动态博弈可能使广告系统的数据循环可能难以进入一个持续的稳态和闭环。同时广告系统本身也存在预算限制，被马太效应加强的广告往往会因为预算限制，无法支持更多的流量投放，也限制了闭环的形成。

而全链路联动技术对搜索推荐等非广告场景来说，确实比广告场景有更大的数据闭环风险，因此在探索通道的建设上也更为急迫，后面在全链路联动技术的落地过程中，需要设计更多长期指标来观察研究全链路联动技术对整个系统长期的影响。同时也需要进一步研究如何构建更好的探索机制，探索通道和利用通道如何更好的配合等等。

这篇文章的目的，除了向大家分享我在全链路联动技术上探索的经验成果之外，也希望能起到抛砖引玉的作用，吸引更多的人可以加入到这个新方向的探索研究过程中，以便推动这个方向更快更好的发展。

业务效果

全链路联动技术已经在阿里妈妈展示广告主要业务场景落地全量，给阿里妈妈广告收入带来巨大增长。精准值预估技术：

面向任意目标的全库向量召回技术 PDM：CTR+1.5% , RPM+2%
粗排全空间 ESDM 模型：CTR+3% , RPM+1.5%

集合选择技术：

以学习后链路的序为目标的端到端召回技术 LDM：CTR+3% , RPM+4%
以学习后链路的序为目标的端到端粗排 LBDM 模型：CTR+8% , RPM+5%

总结与展望

在技术算力红利逐渐消失，单模块技术迭代进入深水区的情况，全链路联动技术沿着精准值预估路线提出了召回 PDM 技术和粗排全空间 ESDM 模型，沿着集合选择技术路线提出了召回 LDM 技术和粗排 LBDM 模型，革新了整个阿里妈妈展示广告的排序体系，使整个系统在理论上具备了对齐最终系统目标的能力，减少了系统的链路损耗，使整个系统的算力分配更为合理，打开了全新的技术增长空间，给阿里妈妈展示广告带来了一波巨大的技术红利，也给阿里大盘广告收入带来了巨大的增长。

在对齐最终系统目标的基础上，如果存在算力富余，那么可以进一步对全链路各个模块进行模型复杂度升级和算力倾斜，有可能存在进一步的效果红利。同时也可以考虑进一步探索精准值预估技术和集合选择技术发展融合的可能，使整个排序系统兼具二者的优点。

正所谓合久必分，分久必合。早期的级联排序架构，很大程度上是算力 RT 不足的无奈之举。现在随着算力的提升以及对算力的运用更加纯熟，需要进一步探索能否突破级联架构限制，实现模块间以及模块内部各部分的进一步融合，甚至是多模块一体化的端到端排序新体系。这个有可能带来新的革命性成果。

更多阅读