基于支付宝平台真实工业数据的 AntM2C 数据集

2023-11-06 23:37

点击率（Click-through Rate, 尊龙棋牌娱乐人生就是博CTR）预测在推荐系统中至关重要，直接影响用户的体验和平台的收入。近年来，CTR 引起了行业和学术界的关注，也推动了各种开源 CTR 数据集的出现。然而，当前现有的 CTR 数据集还存在一些局限。为解决 CTR 数据集存在的部分局限问题，蚂蚁集团提出了一个基于支付宝平台真实工业数据集——多场景多模态点击率预测数据集（AntM2C，Multi-Scenario Multi-Modal CTR）数据集。

它包括支付宝平台五类业务场景的 10 亿个 CTR 数据。除了包含 ID 特征外，每个样本还包含多模态特征，为 CTR 模型提供了全面的评估信息。在 ATEC" 数星 " 计划首批发布的数据集中，AntM2C 也首次公开发布了 1000 万条数据，并且即将进行第二轮总体数据量级达到十亿的开源。

本数据集的发布填补了行业内多场景多模态点击率预估问题的数据集空白，后续 AntM2C 还发布更多的数据和特征，并逐步对 AntM2C 进行更先进的基线方法的评估，提供全面而可靠的评估结果。

目前，蚂蚁集团多场景多模态点击率预估数据集第一阶段开源（AntM2C）可在 ATEC 官方平台下载，数据集下载入口：https://www.atecup.cn/ods

AntM2C 数据：尝试突破传统 CTR 数据集局限性

点击率预测在在线广告、搜索引擎和推荐系统等各个领域发挥着重要作用。CTR 预测任务是估计用户点击给定商品的概率。它对于提高用户参与度、提升用户体验、以及优化广告收入至关重要。但 CTR 预测中的一个难点在于如何对不同的 CTR 模型进行准确评估。为应对这类挑战，开源 CTR 数据集为评估不同 CTR 模型的性能提供了标准化和基准环境，能够使研究人员比较不同模型的有效性，确定适用于特定应用的、最合适的模型。但是，现有的 CTR 数据集仍然存在一些局限。

首先，在实际的工业 CTR 预测中，用户通常会点击来自不同业务场景的各类商品，并对不同商品带有个人的偏好。例如，用户可能会在支付宝 Tab3 页面上浏览有关咖啡的视频，然后在营销活动期间点击咖啡优惠券，最后使用支付宝搜索点击咖啡订购小程序下单。联合建模这种多场景的 CTR 数据不仅可以更全面地了解用户的偏好，还可以共享场景之间的知识，以提高每个场景下的 CTR 效果。

然而，现有的 CTR 数据集通常仅涵盖有限种类的商品，且通常来自相同的业务场景，无法捕捉到用户的多场景偏好。例如，Criteo 和 Avazu 只涉及广告的 CTR 数据；作为电商平台，亚马逊和 AliExpress 只提供了他们的电商商品的 CTR 数据；Tenrec 更专注于视频和文章推荐。

其次，多模态特征可以解决不同业务场景中相似商品的 ID 不一致问题，并有效地建立不同场景之间的桥梁。例如，在不同的业务场景中，关于咖啡的视频和咖啡优惠券具有不同的 ID。因此直接使用 ID 特征无法感知这两个商品之间的关系。同时，随着大型语言模型（LLMs）的兴起，将 LLMs 与 CTR 相结合已成为新兴的研究领域。但是现有的 CTR 数据集大多都是基于 ID 类特征，其他模态的数据较少，难以支撑目前研究的需求。

第三，现有的数据集通常在 1 亿左右规模，无法进一步验证模型在更大规模的工业场景中的能力，需要更大规模的数据集全面地反映 CTR 模型的在真实工业生产环境中的实际性能。

为解决上述挑战，蚂蚁集团提出了 AntM2C 数据集，这是一个用于 CTR 预测的大规模多场景多模态数据集。与现有的 CTR 数据集相比，AntM2C 具有以下优势：

【多样的业务场景和商品类型】：AntM2C 数据集包含了支付宝平台上五类典型业务场景中不同类型的商品，包括广告、优惠券、小程序、内容和视频。每个业务场景都有独特的数据分布，不同场景之间也存在大量交叉用户和相似商品，这可以用于对多场景 CTR 建模进行更全面的评估，以测试 CTR 模型在多个业务场景中的有效性。

【多模态特征系统】：AntM2C 不仅包括 ID 特征，还提供了丰富的多模态特征，如文本和图像，可以在不同场景之间建立相似商品之间的联系，并能够更好地评估多模态 CTR 模型。此外，AntM2C 的特征系统包括 200 多个特征，使其更加贴近工业场景中的实际 CTR 预测（在第一阶段开源中，AntM2C 开源了 1000 万个样本，包括 29 个 ID 特征和 2 个文本特征，更多的数据和图像特征将会在后续阶段中逐步发布）。

【最大的数据规模】：AntM2C 包括 2 亿用户和 600 万个商品，总共达 10 亿个样本。每个用户的平均交互次数超过 50 次。据开源方所知，AntM2C 是目前规模最大的公开 CTR 数据集，可以提供全面可靠的 CTR 评估结果。

【全面的基准测试】：基于 AntM2C 数据集，开源方构建了三个典型的 CTR 任务，包括多场景建模、冷启动建模和多模态建模。在此基础上还提供了基线模型的评估结果。这些评估结果不仅可以帮助研究人员和从业者更好地了解不同 CTR 任务的性能和挑战，还提供了参考和比较的依据。

当前，AntM2C 数据集可在https://www.atecup.cn/home获取。

源于支付宝平台真实工业数据而生的 AntM2C 数据集

为了满足用户的日益增长的需求，支付宝向用户推荐不同业务场景的各种类型的商品。AntM2C 从支付宝的五类场景中汲取 CTR 数据，其中每类场景下的商品类型都 AntM2C 存在差异，如图 1 所示，搜索中的服务和内容、营销中的优惠券、Tab3 页面中的视频以及会员页面上的广告各有不同。在搜索场景中，当用户输入搜索词时，几个相关的服务或内容的小程序会显示出来以供用户点击；在营销场景下，平台会推荐一些消费者优惠券，用户可以点击他们想要使用的优惠券；在 Tab3 页面上，推荐的项目主要是短视频，用户可以选择观看他们感兴趣的视频；在会员页面上，用户可能会点击一些在线广告。总之，AntM2C 数据取材于不同业务场景的各类商品。

图 1 支付宝平台上典型的 CTR 预测场景展示

基于 10 亿样本的 AntM2C 数据集

AntM2C 从上述五类场景中收集了连续 9 天（从 20230709 到 20230717）的 CTR 样本，然后筛选出了总点击次数高于 30 次的高活跃用户的 10 亿个样本。在开源的第一阶段，蚂蚁集团从这 10 亿个样本中随机抽取了 1000 万个样本，表 1 展示了数据的统计信息。在后续阶段，开源方将陆续开放所有 10 亿个样本。出于保护用户隐私，数据集中将使用字母 "A-E" 以替代场景的真实名称。

表 1 样本情况

此外，AntM2C 数据集已经进行了去标识化和加密处理，不包含任何个人可识别信息（PII）。在数据集中，每个用户都经过了安全编码。在实验过程中，开源方也采取了充分的数据保护措施，以减轻数据拷贝泄露的风险。需要注意的是，该数据集仅用于学术研究，不做任何实际的商业使用。

依托实际数据分布，可有效反映多场景 CTR 预测情况

AntM2C 数据集中的一部分用户在五个场景之间存在重叠。如下文的表 2 显示了不同场景之间重叠用户的数量，表明AntM2C 可以有效地反映同一用户在不同场景中对商品的偏好，从而进行多场景 CTR 评估。至于商品，由于不同场景之间的商品类型差异显著，不同场景之间的商品没有交集。

表 2 不同场景之间重叠用户的数量

同时，在数据集中，基于所有样本以及不同场景（A-E）的样本，以用户 / 商品的频率数量为横轴，以该频率下的用户 / 商品数量为纵轴，统计了用户和商品的频率分布情况，如图 2 所示。在商品分布方面，所有场景都呈现出长尾分布的情况，80% 的样本出现频率少于 5 次。这种长尾分布与实际情况一致。至于用户分布，不同场景之间存在差异。在 B 场景中，用户频率分布有两个峰值，一个在 5 次以下，另一个在 50 次左右。频率超过 50 次后，用户数量随着频率增加而减少。在其他场景中，用户的曝光频率也遵循类似于商品的长尾分布，即更高的曝光频率对应的用户数量更少。由于场景之间存在重叠用户，多个场景中用户的长尾分布在全局样本中变成了正态分布。大多数用户的曝光频率是在 50 次左右。总体而言，AntM2C 数据集中商品和用户的分布能够反映 CTR 预测的实际情况。

图 2 AntM2C 数据集中用户和商品的频率分布情况

AntM2C 数据集特征体系：不止用户和商品特征，更有额外特征

AntM2C 数据集的特征系统，如表 3 所示，包括用户和商品的 ID 特征以及文本特征。用户特征由静态特征（用户静态属性和商品标题将在后续阶段公开）和用户序列特征组成。静态特征包括用户的基本属性，如性别、年龄、职业等。序列特征提供了用户在支付宝上的最近活动信息，包括点击的小程序、搜索的服务、购买的商品等。但如上文所述，为保护用户隐私，这些用户特征已经进行了去标识化和加密处理，以加密 ID 的格式出现在数据集中，无法重新构建原始的用户特征。除了基于 ID 的特征外，还包括用户搜索实体的原始文本，以提供多模态评估。

表 3 AntM2C 数据集的特征系统

商品特征包括商品 ID 和商品文本特征。商品 ID 是每个商品的全局唯一标识符，商品 ID 的编码方式在不同场景中可能有所不同。为解决不同场景中商品 ID 的不一致性，AntM2C 还包括商品的原始标题文本和基于标题文本提取的实体。除了用户和商品特征外，AntM2C 还提供了额外的特征，如日志时间和场景标识。研究人员可以利用这些额外的特征，根据时间灵活地拆分训练、验证和测试集，并在不同场景中评估性能。

AntM2C 中的标签表示用户是否点击了相应的商品。如果用户进行了点击操作，标签设置为 1，否则设置为 0。AntM2C 中正负样本的比例可以从表 1 中的点击率中获得。需要注意的是，实际的在线日志存在大量的负样本（曝光但未被点击的样本）。为解决这个问题，AntM2C 进行了负采样，导致数据集中的点击率高于实际在线日志中的点击率。

数据集的应用：多场景 CTR 预估、冷启动 CTR 预估、多模态 CTR 预估

基于 AntM2C，开源方选择了常用的 AUC 作为所有实验的度量指标，通过几个 CTR 预测任务进行了测试，并得到了一些评估结果，作为 AntM2C 的使用示例。在未来的工作中计划将继续更新更多的基线方法和评估结果。

多场景 CTR 预估

多场景 CTR 预测是工业推荐系统中的常见问题之一。它通过利用来自多个场景的 CTR 数据构建一个统一的模型。场景之间的知识共享能够使多场景模型相较于单场景建模达到更好的性能。开源方基于 AntM2C 数据集中的 5 类场景，使用不同的基线方法对多场景 CTR 预测进行评估。其中，主要选择多任务方法作为多场景 CTR 预测的基线方法。每个场景的 CTR 估计视为一个任务，并在底层共享场景之间的知识。

表 4 不同基线方法在多场景 CTR 预测上的评估结果

通过表 4，可以得出以下结论。首先，与所有数据混合训练的 DNN 模型相比，所有的多任务模型都取得了更好的性能。这表明在 AntM2C 中，不同场景之间存在差异和共性，简单地混合训练数据不能得到最佳结果。其次，每个场景的 CTR 性能不同，表明不同场景之间存在不同的困难程度。例如，在场景 B 中，数据量较大，AUC 普遍在 0.93 以上，而在场景 D 中，AUC 仅约为 0.68。AntM2C 中多样的业务场景和商品使得 CTR 的评估更加全面和多样化。最后，具有专家结构化的 MMOE 和 PLE 优于共享底层模型，显示出精细化的模型设计可以提升在 AntM2C 上的性能，反映不同模型之间的差异。

冷启动 CTR 预估

冷启动问题是推荐系统中的一个具有挑战性的问题。使用稀疏的用户 - 商品交互数据训练高质量的 CTR 模型是一个具有挑战性的任务。冷启动主要涉及两个方面：用户和商品。如图 2 所示，AntM2C 数据集中的用户和商品呈现自然的长尾分布。因此，开源方在 AntM2C 数据集上对冷启动基线方法进行了全面评估，其中模拟了两种常见的冷启动问题：少样本和零样本。

●少样本：在训练集中出现次数大于 0 且小于 N 的（本文设定 N 为 100）用户和商品，表示这些用户和商品只有很少的训练数据。

●零样本在训练集中从未出现过的用户和商品，表示用户是第一次访问该场景，或者该商品在第一天被推出。

在冷启动建模中的关键问题是如何在有限数据下学习用户偏好以及用户和商品的表征。近年来，基于元学习的冷启动方法已成为最先进的方法。因此，开源方选择了几种具有公开可用代码的代表性方法作为基线模型。

表 5 冷启动用户和商品的 CTR 效果

由于冷启动用户和商品的数据有限，开源方没有按场景计算 AUC，而是评估了冷启动用户和商品的整体效果。通过表 5，可以得到以下结果。首先，与表 4 中的结果相比，冷启动用户和商品的 AUC 普遍低于整体水平，这表明 AntM2C 的数据能够有效地反映冷启动商品和用户之间的差异。其次，不同的冷启动方法在 AntM2C 中显示出可区分的结果，而且所有的方法都明显优于没有冷启动优化的 DNN 模型。这表明 AntM2C 能够有效地比较不同冷启动方法的效果，并展示了方法之间的差异性。最后，零样本的性效果低于少样本，这表明零样本 CTR 预测比少样本更具挑战性。AntM2C 提供的两种冷启动模式可以全面评估冷启动 CTR 预测。

多模态 CTR 预估

随着大型语言模型（LLM）的兴起，有效地将 LLM 的知识转移到 CTR 预测中已成为一个热门的研究课题，已经有许多基于多模态 CTR 建模的工作使用了商品和用户文本等特征。

AntM2C 包含了用户和商品的原始文本特征，与现有的 CTR 数据集相比，可以提供更全面的多模态建模评估。因此，开源方在 AntM2C 数据集上对不同的多模态方法进行评估。作为基线模型，开源方使用语言模型来处理文本特征，然后将文本嵌入与其他 ID 特征进行拼接，输入到多场景模型中。为了方便评估，选择 MMoE 作为主干模型，并使用预训练的 Bert-base，得出多模态 CTR 的评估结果，如表 6 所示。

表 6 多模态 CTR 的评估结果

相较于仅使用 ID 模态的 MMoE，在数据稀疏的场景 C、D 和 E 中加入文本模态后，CTR 性能有所提升。由于当前使用文本模态的基线相对简单，性能改进并不显著，但这也显示了 AntM2C 提供的文本模态改进 CTR 性能的潜力。

展望

希望未来有更多的团队加入 CTR 相关的研究领域，在合规安全的前提下，参与数据集的开源及共建工作。感谢蚂蚁集团 AntM2C 数据集开源团队（蚂蚁集团机器智能团队、蚂蚁集团商业智能团队、蚂蚁集团应用智能 AML 团队）为公益性技术研究做出的贡献。

雷峰网

ZAKER旗下Web3.0元宇宙平台

ZAKER旗下新媒体协同创作平台

数字化转型是全球经济增长的重要引擎返回列表上海外卖买药试点医保支付