大讲堂 | 面向大数据的图聚类方法

本文作者： AI研习社

2018-10-26 12:05

导语：在本次公开课中，我们针对大数据的需求，提出了一系列新的图聚类方法及优化方法。

雷锋网AI研习社讯：聚类是统计学、机器学习和数据挖掘领域的重要研究问题之一，其目的是将数据对象划分为多个类或簇(cluster)，使同一簇中的对象之间有较高的相似度，而不同簇中的对象有较大的差异。聚类是数据分析的重要手段，在客户分群、基因识别、文本分析、空间数据处理、卫星照片分析、医疗影像自动检测等领域有着广泛的应用。基于图的聚类方法通过将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量距离较远，以达到聚类的目的。与传统的聚类算法相比，它能工作在任意的空间、能对任意形状的数据进行聚类。但是，由于这类算法需要进行特征向量分解，具有较高的复杂度，所以在大数据时代面临巨大的挑战。我们针对大数据的需求，提出了一系列新的图聚类方法及优化方法。

分享主题

Graph-based Clustering of Large-scale Data（面向大数据的图聚类方法）

分享嘉宾

陈小军，深圳大学计算机与软件学院讲师，主要研究方向为无监督学习、特征选择、集成学习等。发表了40余篇学术论文，包括十余篇CCF A类文章，如SIGKDD、ICDE、ICCV、AAAI、IJCAI、TKDE、TNNLS等。

分享提纲

1、聚类

2、图聚类及归一化割

3、分享的工作：

ISR: Improved Spectral Rotation [IJCAI 2017]

DNC: Direct Normalized Cut [SIGKDD 2018]

BKM: Balanced k-means for anchor generation [SIGKDD 2018]

分享时间