3
雷锋网AI金融评论报道,5月26日,阿里云创始人王坚博士与科技圈11位志愿发起人共同组织了年度科技创新活动2050大会。在下午由氪信科技CEO朱明杰出品的“人工智能重构智能金融”专题论坛上,微软全球执行副总裁、美国工程院院士、前微软亚洲研究院院长沈向洋,前IDG荣誉合伙人、火山石资本创始人章苏阳,招商局集团创投总经理吕克俭等皆受邀出席。
上海交通大学安泰经管学院助理教授李春晓
期间,上海交通大学安泰经管学院助理教授李春晓进行了“时空序列如何影响营销和反欺诈”演讲。她主要介绍了AI在商业中的应用。比如AI是如何影响商家营销的,并给出了如何更好地管理公司的建议。据雷锋网了解,她的研究领域在于数据科学和行为经济学的交叉领域,聚焦于研究数字技术下的平台战略、用户行为、财务激励和数据安全等。
以下是雷锋网编辑的演讲原文,经过李春晓确认:
用三个典型的哲学问题先开始话题:你是谁?从哪儿来?到哪儿去?
这三个问题很难回答。我们在生活中会接触到形形色色的人——用户、客户、雇员、合作伙伴,这三个问题时时刻刻地萦绕在我们心头,这也是 People Analytics,即人员分析一直孜孜不倦探讨的问题。
再问几个接地气的问题:你知道234天以后的下午2点30分你会在哪里做什么吗?你知道下一次职业变换在什么时候,是跳槽还是升职?虽然我们可能都不知道,但是AI知道。
之所以会谈到这几个问题,是因为我最近做了研究:不管你自以为的行动有多少自发性,我们都能够找出线索并预测你的路径。绝大多数人都是非常可预测的,因为我们是习惯的生物。我们的行为,模式和习惯受到很大因素的影响,挑战在于它跨越了多个学科,比如心理学、脑科学、人类学,社会学,基因学,教育学等。
所以 People Analytics 做的就是把所有这些学科的研究成果放在一起,结合大数据和分析,利用这些行为和习惯创造线索,为公司决策、营销和品牌做出真正有趣的见解。
我们生活在数据的社会里,我们递交的简历、合作过的伙伴、就读的高校、是谁的孩子、谁是我们的孩子,这一条条都集中地记录在数字设备上,同时构建成了一条条关于你、我、他的数字线索,再由people analytics将这些整合还原出独一无二的画像,但看过的人却比你的朋友更懂你,都会跟你说:对过眼神,就是你。
我们做的很多用户分析是根据人们的基础数据、社交数据和历史消费,让公司确定用户的已知需求和已知模式。过去十几年来我们一直在这个战场上,已经硕果累累。
我认为下一个战场在于探求用户的未知需求,探求用户的隐藏模式和偏好。这是因为我们想在更合适的时机、地点、方式去接触、营销用户,创造更大的价值。
“天时、地利、人和”不只是艺术,更是一门科学,这就是People analytics要做的——在大量的人员数据的基础上添加时间序列,空间轨迹,结合人工智能的技术,去触碰用户隐藏的认知和思维,你会意识到这是一个巨大的机会。
接下来我将用四个案例给大家简化一下流程,深入地分析一下如何利用AI来增强零售界、金融界、服务界的营销能力。
“从哪里来,到哪里去”这两个问题已经强调了地点的重要性,GPS相关技术重新定义了地点,而精确的位置数据开启了即时营销的大门。大家下飞机下高铁到杭州时,很多APP会推送“杭州欢迎您”,或者推荐吃喝玩乐的地方。但很多人都没有去。因为信息太有限,仅仅靠位置信息的推送是不够完整不够精确。所以关联内容是很重要的。
当我们把时间维度加到位置上的时候,视野里会呈现出更清晰的上下文环境。比如说你在星期一的下午2点走在大街上,这个时候你的左手边一个音乐酒吧,你的右手边是星巴克咖啡,这个时候手机上推送了两条优惠券,你打开一看发现是酒吧啤酒半价和一杯星巴克星冰乐的半价。这个时候如果你不想把周一下午浪费的话你会选择什么?星巴克。那换一个时间呢?如果是晚上8点半你同样收到两条推送,你们就很有可能兑换酒吧的优惠券,和同事们喝上几杯。
所以在这种情况下时间非常关键,它不仅仅是位置。我们的商家已经做了很多基于位置的广告,但这不够,用户有不同的人格,即使同一个地点不同时段的需求也是不同的,你需要把时间和地点结合起来,然后看人的行为!
天普大学的Luo xueming教授就营销的不同时间产生的不同效果做了详细的随机实地实验。再比如,我们和国内某公司也有过研究,若先增加时间因素,营销效果会提升,再加地点地理要素,效果也会有所提升。如果同时添加时间和地点,效果提升的幅度更明显,这就是时间维度的营销。
更深一层考虑,仅有位置的营销除了缺少时间概念,还只是静态的、“守株待兔”式的营销模式,而我们需要更加灵活。
基于空序的营销,以购物中心为例
举个例子,在一个大型的购物中心,你站在苹果店门口,如果没有地理信息位置其他,只能基于通过位置进行营销,可能就会认为你要去逛苹果店会给你推送一条苹果店相关的信息或者优惠券。其实这里有一个很大的问题——因为你站在苹果店门口不代表你就想进去,不代表你就是他的顾客,有可能是你和朋友约好在苹果门口见。所以我们需要有不同于地理的数据和更多的信息。
另外也如Anindya Ghose教授的畅销新书《点击》(已译成多国文字)里阐述的那样,如果我们知道一个人刚去了一家华为店,又去了小米店,之后路过三星,绕了一圈最后到达苹果店。我们会更了解这个人的思维模式,更了解他究竟为什么站在苹果店门口,以及对什么样的品牌可能产生兴趣。
空序营销碾压基于地点和随机的营销
为了研究这种基于轨迹的营销策略的有效性,来自NYU的Anindya Ghose教授、CMU的Beibei Li教授一起做了随机实地实验,来观测空序的营销是否会有非常好的效果。
研究发现空序营销直接碾压了基于地点和基于随机的营销,更加碾压了不营销的效果。我们可以看到有更高的优惠券回复率,更快的优惠券兑换率,同时增加了每一个专卖店的流量。就是说,顾客在专卖店消费更高,在店里待的时间更短,对商场来说整体实现了营销的巨大飞跃。
值得关注的是,空间轨迹数据不止是营销利器,与投资、房地产、实体店规划、城市经济行为也息息相关。
我和Missouri Tech的Yanjie Fu教授最新的研究是用集体学习的方法,对大规模异构人口流动性数据进行了建模,来捕捉住宅社区,城市功能,时间效应和用户流动模式之间的关系。我们的研究发现,人群的空间轨迹可以用来理解城市形态对社会经济行为的影响,如房地产和餐厅的受欢迎程度等等,这个研究可以帮助政府规划适当的城市功能组合,以促进城市发展和促进本地业务发展。
刚才的空间轨迹是把地点延长成了一条线,我们送出优惠券以后在现在这个小时和下一小时用户的需求是非常类似的,并没有很大的改变——他可以这个小时去逛,也可以下一个小时。但是现在设想另外一个可能性,用户在不同的时段里需要的推荐是不同的,会产生什么样的效果?
基于时序的营销,以旅游度假为例
举个例子,这是一个旅游度假的上下文,假设时间单元是天,在例子里就是5天。我们根据历史记录可以看到用户去了机场,博物馆,剧院,购物中心,游乐场和海滩,我们称这些地点为POI也就是兴趣点。如果我们要对第四个人进行第四天和第五天的推荐,我们应该推荐什么?
传统的推荐系统会先在第四天和第五天推荐海滩,因为海滩和博物馆一起出现的频率更高,相关性更大。还有一些推荐系统会在第四天和第五天的时候都推荐游乐场,因为游乐场最可能排在剧院后面。但基于用户的需求,我们最应该在第四天推荐游乐场,第五天推荐沙滩。但我们原始的推荐系统算法就是这么傻。
用户选择的时间序列,体现了用户的偏好,在研究里有两个难点:
首先,要根据POI之间的时间间隔和时间序列来进行建模。
其次,历史上连续check-in数据是非常松散的。 松散的数据极大地降低机器学习的效率和算力。
基于时序的推荐系统流程结构图
那解决方案是怎样呢?Rutgers的Hui Xiong教授研究了基于时序的推荐系统的流程结构图:
通过从用户历史check-in序列中,提取序列模式,来构建POI过渡立方体(立方体是用于测量时序偏好)。接着根据用户check in的频率构建用户的兴趣偏好。然后同时模拟和学习用户的兴趣以及序列的偏好。Low-rank graph construction model可以很好地解决,稀疏观测来估计分布的挑战。同时建立bi-weighted graph来评定用户兴趣,最后对潜在兴趣点进行排名和评估建立了POI实际系统。用实际数据来检测的成果显示,与现有的POI推荐系统不同,推荐系统可以通过捕获用户演变的顺序偏好,在未来的特定时间段内提供有效的POI推荐。
事实上,时空序列还有更多的用途,比如帮助公司控制风险。
公司财产损失很大程度上来源于金融欺诈,主要由外部和内部两方面威胁组成。外部的威胁包括投资欺诈、信用卡欺诈、身份盗窃等;内部威胁诸如金融偷窃,会计造假,洗钱,抵押欺诈,内部交易和市场操纵等。目前外部风控业内已经做得非常领先,所以我们把注意力转向了内部欺诈。
值得注意的是,内部欺诈还是主流的金融威胁,75%的欺诈都来源于内部。当你的公司运转很好但是营收不佳的时候,你就要警惕公司是否存在异常了,典型的异常包括密报、高员工流动率、低士气、不寻常不合理不一致的行为等。
基于时序的报表挖掘
这里介绍两种欺诈检测的方法,一是基于时序的报表挖掘,二是挖掘行为轨迹。
第一个是根据持续报表和记录挖掘,总共分为15步:
1)将支付记录与授权供应商列表对应;2)将供应商与雇员对应;3)将机构银行账户序号与雇员银行账户序号对应;4)将递送地址与雇员地址对应;5)确定与往年记录比较有较大变化的情况;6)检测查找重复的发票;7)检测查找重复的支付记录;8)检测可能缺失的支票;9)检验在break points或较低的金额数量;10)检测被拆分的发票;11)检测查找较大的折扣;12)检查大额的支付记录;13)分析支付日期+确定支付数额有较大方差的供应商;14)抽取异常的交易;15)提取授权和付款记录。
前4步将数据关联起来,把支付记录、供应商、雇员、机构银行账户、地址对应之间做关联,以方便进行Multi-source Joint Learning联合学习。第5步是笼统地用文本挖掘,筛查大的变动。第6到第10项处理发票相关的报表记录,挖掘,重复、缺失、拆分等等。在这里我们会建立一个时序的模型,控制时间上的因素比如季节性趋势,同时用地点作为fix effect,固定变量。第11到14步,是针对大额和异常的分析,第15步是个体抽样。
第二个是对于行为轨迹的挖掘,比如说雇员出现在不该出现的位置,出现在了不该出现的时间。假设小张一直是非常守时的人,早上8点钟上班,下午5点钟下班。突然有一天我发现他连续3天加班加到9点,这就是一种异常情况了。我们应该用数据分析看一下他在做什么,他是不是调用了不该调用的数据库,或者数据库是否被篡改,这些都是可以用行为轨迹分析挖掘到的。
另外,内部风控里的会计造假、或者人员的策略行为,是可以通过在公司内建立机制来做预防和早期干预的。
我和Arizona State University的顾彬教授最近的研究发现,社会成本会被人员考虑再造假成本里。当员工曝露于社会网络中,当人员越是处于社交网络相对中心位置、越是被关注、或者积极与他人进行社交互动的状况下,策略行为会有所降低。企业相应可以采取的办法是增加企业内的社交网络分析,加强员工间的沟通,报表和记录尽量多人合作完成并相互检查确认,同时对于欺诈报表也进行网络分析和追溯。
今天的Take away只是说我们在孜孜不倦地探索用户已知和未知的需求,关键要素是时间序列和空间轨迹,把握住这两个要点将会很大程度地提升营销效果,同时也能很好地控制内部风险。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。