1
本文作者: 李尊 | 2016-11-03 11:57 |
近日在美国Indianapolis举行的ACM CIKM Cup 2016中,来自中国阿里巴巴集团搜索事业部Natural Artificial Intelligence团队在获得了Personalized E-Commerce Search Challenge项目冠军。
CIKM全称是The ACM Conference on Information and Knowledge Management,是信息检索和数据挖掘领域的全球顶级学术会议,由美国计算机协会(ACM)主办。
今年CIKM Cup 2016竞赛题目有:
跨设备实体连接(Cross-Device Entity Linking Challenge)
个性化电商搜索排序(Personalized E-Commerce Search Challenge)
跨设备实体连接(Cross-Device Entity Linking Challenge)
当下建立准确的用户身份已是广告公司一个非常困难和重要的问题,在这个过程中最关键的任务是在多个设备寻找相同的用户信息,整合他们的数字足迹进行更精准的分析。
跨设备实体连接(Cross-Device Entity Linking Challenge)为学术界和工业界的研究人员提供了一个独特的机会,来解决这个具有挑战性的任务。
个性化电商搜索排序(Personalized E-Commerce Search Challenge)
个性化电商搜索排序(Personalized E-Commerce Search Challenge)为学术界和工业界的研究人员提供了一个独特的机会,他们可以用来测试新的电子商务个性化搜索方法以及巩固现有工作成果。
这项挑战的独特之处在于:
(1)释出搜索记录和浏览日志,过去只有搜索记录。
(2)专注于电子商务搜索,因此有交易数据和独特的(探索性)搜索行为模式。
(3)提供产品图像,允许通过视觉特性来搜索排名实验。
其中,阿里团队获得的是Personalized E-Commerce Search Challenge项目冠军,该项目中主办方提供了来自 DIGINETICA及其合作伙伴提供的用户搜索、商品数据、交易信息(匿名)以及一个大型的产品图像数据集。
竞赛目标是针对搜索引擎的召回结果进行相关性打分,并基于打分进行排序,排序结果越接近理想值越好。相比主办方提供的搜索排序基准数据,来自阿里巴巴的参赛团队提升了21.28%。
在这次比赛中,阿里团队将相关方法整理发布了题为Ensemble Methods for Personalized E-Commerce SearchChallenge at CIKM Cup 2016的文章。
在文章中,阿里团队表示主要使用了集成方法,以及逻辑回归、决策树、SVM以及深度模型等。
据AI科技评论了解,目前集成方法(Ensemble Methods)正当红,如Kaggle平台上面的比赛几乎都是用多个模型来集成来获取更好的成绩。
常见的集成方法(Ensemble Methods)有这么几种:
Bagging:使用训练数据的不同随机子集来训练每个 Base Model,最后进行每个 Base Model 权重相同的 Vote。
Boosting:迭代地训练 Base Model,每次根据上一个迭代中预测错误的情况修改训练样本的权重。
Blending:用不相交的数据训练不同的 Base Model,将它们的输出取(加权)平均。
Stacking:划分训练数据集为两个不相交的集合,在第一个集合上训练多个学习器,在第二个集合上测试这几个学习器,把第三步得到的预测结果作为输入,把正确的回应作为输出,训练一个高层学习器。
逻辑回归(Logistic Regression)是一种强大的统计方法,它能建模出一个二项结果与一个(或多个)解释变量。它通过估算使用逻辑运算的概率,测量分类依赖变量和一个(或多个)独立的变量之间的关系,这是累积的逻辑分布情况。
决策树是一个决策支持工具,它使用树形图或决策模型以及序列可能性。包括各种偶然事件的后果、资源成本、功效。下图展示的是它的大概原理:
SVM(Support Vector Machine)是二元分类算法。给定一组2种类型的N维的地方点,SVM(Support Vector Machine)产生一个(N - 1)维超平面到这些点分成2组。假设你有2种类型的点,且它们是线性可分的。 SVM(Support Vector Machine)将找到一条直线将这些点分成2种类型,并且这条直线会尽可能地远离所有的点。
在文章最后,阿里团队表示这次获得Personalized E-Commerce Search Challenge项目冠军主要是以下三个主要因素:
数据架构(data construction)
特征工程(feature engineering)
集成建模(ensemble modeling)
AI科技评论君认为,这次ACM CIKM Cup 2016比赛之前阿里的团队在广义的搜索那块相对没有那么有名。但由于其天生电商属性,让它在情投意合的CIKM Cup 2016大赛中个性化电商搜索排序(Personalized E-Commerce Search Challenge)部分正好一展身手,其实是归功于其多年的技术沉淀所致。
在这次ACM CIKM Cup 2016决赛中,阿里巴巴团队使用了集成方法,以及逻辑回归、决策树、SVM以及深度模型等,融合了多种方法,证明了其在这方面的实力。也希望阿里强大的计算能力和数据能力在未来能改变更多的行业,让数据产生更大的价值。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。