0
本文作者: 汪思颖 | 2019-04-03 19:44 |
雷锋网 AI 科技评论消息,KDD 2019 将于今年 8 月 4 日—8 日在美国阿拉斯加州安克雷奇市举行,随着投稿的结束,会议的临近,一年一度的 KDD Cup 也开始启动报名啦。
不同于去年的单项赛事,今年共分为三项比赛:
常规机器学习挑战赛(Regular ML Track)
自动机器学习挑战赛(Auto-ML Track)
以人为本的强化学习挑战赛(Humanity RL Track)
目前,Auto-ML 挑战赛已经进入比赛阶段,冠军将获得 15000 美元奖金,亚军将获得 10000 美元奖金,季军将获得 5000 美元奖金。值得一提的是,今年赛事的主办权,又一次花落中国——Auto-ML 挑战赛由中国公司第四范式主办,ChaLearn 和微软协办。
竞赛者需要利用时序关系数据,设计一个能够自主(无人为干预)实现监督学习的 AutoML 计算机程序。此次比赛将聚焦在二分类问题,且时序关系数据均来自实际业务场景。根据大多数实际应用的时间属性,数据集按时间顺序划分为训练集和测试集。训练集和测试集都由一个主表、一组相关表和一个关系图组成:
主表包含带有样本标记、部分特征和时序标签的实例,用于二分类;
相关表包含了主表中实例的重要辅助信息,可用于提高预测效果。相关表中的字段可能含有时间标签,意味着该表中的信息与时间有关;
不同表中数据之间的关系用关系图描述。需要注意的是,任何两个表(主表或相关表)都可以有一个关系,任何一对表最多只能有一个关系。主办方保证训练集和测试集的关系图是相同的。
参赛者需要提交通过主表、相关表和关系图自动构建机器学习模型的 AutoML 方案。一旦经过训练,模型将以测试主表(不包括样本标记)、相关表和关系图作为输入,并预测测试集的样本标记。参赛者提交的方案将在受限制的计算资源和时间内进行测试。
为了让参赛者能够更好的开发并评估方案,主办方提供了 10 个时序关系数据集,包括 5 个公共数据集,5 个私有数据集。
比赛共分为三个阶段:
Feedback 阶段:反馈阶段。在此阶段,参赛者可以在五个公共数据集上进行训练,开发 AutoML 方案。参赛者可以进行有限数量的提交,并获得作为反馈的所有五个公共数据集的测试数据的性能。参赛者可以下载有标记的训练数据集和未标记的测试数据集。因此,参赛者可以在线下准备他们的代码并提交。该阶段最后的代码提交将最终作为下一阶段进行盲测的代码。
Check 阶段:校验阶段。该阶段将在五个私有数据集上对第一阶段的最后一次提交的代码进行盲测,确保提交的方案顺利运行,不会出现例如超时或者内存溢出等问题,但参赛者无法看到具体的结果,所有小组具备一次更新代码的机会,以保证在最终阶段正确的运行自己的代码。
AutoML 阶段:即盲试阶段。该阶段将测试方案在私有数据集上的性能。参赛者的代码将在无需人为干预情况下完成训练和预测。AUC 作为评价指标,最终将根据五个私有数据集的平均排名进行评分。若最终比分相同,则优先考虑可解释性更好的方案,可解释性将由专家团队评审。
以上三个阶段的计算及内存资源均有所限制,因此方案应兼顾效果及效率。
时间轴如下:
2019 年 4 月 1 日:比赛开始,发布公共数据集。参与者可以开始提交代码并在排行榜上获得即时反馈信息。
2019 年 6 月 27 日:Feedback 阶段结束,Feedback 阶段的代码自动迁移到 Test 阶段。
2019 年 7 月 7 日:Check 阶段结束,主办方开始代码验证。
2019 年 7 月 11 日:提交报告截止。
2019 年 7 月 16 日:AutoML 阶段结束,开始评审流程。
2019 年 7 月 20 日:宣布 KDD Cup 冠军。
2019 年 8 月 4 日:举办颁奖仪式
大赛官网:https://www.4paradigm.com/competition/kddcup2019
报名地址:https://competitions.codalab.org/competitions/21948
雷锋网雷锋网
雷峰网版权文章,未经授权禁止转载。详情见转载须知。