IJCAI 2018广告算法大赛落下帷幕，Top 3 方案出炉

本文作者：汪思颖

2018-06-18 16:19

专题：IJCAI 2018

导语：如何处理第七天的转化率异常是需要解决的一大痛点。针对此问题，他们根据对数据的分析、特征的构建、以及对实际场景的思考，提出了四种训练集划分。

雷锋网 AI 研习社消息，IJCAI-18 阿里妈妈搜索广告转化预测比赛近日落下帷幕，本次比赛为阿里妈妈与 IJCAI2018、天池平台联合举办，总奖池 37000 美元，共吸引到 5204 支队伍参赛。

此次比赛提供了广告点击相关的用户（user）、广告商品（ad）、检索词（query）、上下文内容（context）、商店（shop）等信息，参赛选手需要在这些条件下预测广告产生购买行为的概率（pCVR），形式化定义为：

pCVR=P(conversion=1 | query, user, ad, context, shop)

主办方希望在考虑到用户行为偏好、商品长尾分布、热点事件营销等一系列因素的前提下，利用海量交易数据准确高效地预测用户购买意向。此次比赛设置了如下两类挑战：

日常的转化率预估
特殊日期的转化率预估

目前，比赛结果已经出炉。雷锋网看到，来自京东尚科，天池代号为「plants」的选手获得冠军，IJCAI-17 冠军团队获得者周耀、郭鹏博以及李智获得季军，浙江工业大学陈波成、中南大学罗宾理和天津大学吴昊组成的「躺分队」获得第三名，作为前三名中唯一一支学生团队，他们的比赛方案也已经出炉。

在方案中，他们主要讨论了异常日期处理问题，主要思路如下：

难点与挑战

这次比赛的难点有二，一是如何在正常流量数据中，找到适合表达促销/突变的特征；二是如何在模型选择上，找到尽快落地于工业界的轻量级框架。

分析数据

训练数据为 8 月 31 日- 9 月 7 日上午，需要预测 9 月 7 日下午的用户点击率，8 月 31 日-9 月 5 日转化率稳定，但 6 日下降，7 日猛增，推测 7 日为大促节日。

对于异常日期处理而言，仅仅考虑前六天的转化率和第七天的高转化率是不太适合的，如何处理第七天的转化率异常是这道题需要解决的一大痛点。

四种训练集划分

针对此问题，他们根据对数据的分析、特征的构建、以及对实际场景的思考，提出了四种训练集划分：

1. 全量统计特征提取第七天特征——all-to-7
2. 全量数据的抽样统计——sample
3. 单独第七天的特征提取——only7
4. 全量数据——all

构造四种训练集划分的目的如下：

1）构造出训练集中的差异性，方便模型融合

2）在每组训练集中，对高维特征进行选择，选择后进行特征分组

特征工程：

首先执行如下三步操作：

上述基础特征分列
去掉取值变化小的列
去掉缺失值过多的列

IJCAI 2018广告算法大赛落下帷幕，Top 3 方案出炉

分析过程如下：

IJCAI 2018广告算法大赛落下帷幕，Top 3 方案出炉

特征工程总览如下：

IJCAI 2018广告算法大赛落下帷幕，Top 3 方案出炉

特征选择

特征选择的方法有如下2点：

1）罗宾理同学在GitHub的开源代码，参照糖尿病精准医疗大赛的特征选择，地址如下：

https://github.com/luoda888/tianchi-diabetes-top12/blob/master/README.md

以及利用贪心、模拟退火算法，构造出多组特征，适用于组内模型融合。

2）利用 Std/Mean 训练集测试集分布一致的思想，进行特征选择，保证线上线下特征的一致性。

模型选择及融合

分组后对不同的模型进行训练，构造组内特征的差异性，模型的差异性。

他们选择的方法有 Xgboost/Lightgbm/GBDT+LR/Catboost/NN 模型

在 NN 模型里，使用对多个模型求 Average 的方法，使用的模型如下：

DeepFM/DeepFFM (原始 ID 特征放入交叉层) 与 Lightgbm 线下差距 0.0001 (千分点)
AFFM/AFM (对原始 ID 特征加入 Attention) 与 Lightgbm 线下差距 0.00001 (万分点)
FNN/FFNN/NFM (将特征工程后放入网络结构) 与 Lightgbm 线下差距 0.0001 (千分点)

将上述模型按对该组训练集的数据敏感性训练后加权，得到该组 NN 的结果 Ans_nn。每组特征都可以放入上述五个模型中，即组内选择出的特征数 n 乘以组内模型数 m 即为该组模型的数量 = n*m。根据模型间的相关性，分配不同的权重进行加权融合，得到该组的答案 Ans_k。

接下来，在组间训练集中，对每组的 Ans_k 进行加权融合得到 Ans_final，然后利用前六天的上下午，每小时均值的变化趋势，线下预测出线上可能的均值，为 0.036287135，最后对 Ans_final 做 Logit 逆变换。

模型融合框架如下：

IJCAI 2018广告算法大赛落下帷幕，Top 3 方案出炉