聚类

是机器学习的一种,根据相似度对庞大的数据进行分类的算法。因为可以找出数据的特征并自动进行分类,被应用于大数据的分析或解析。

高效地分类数据,AI 时代的必要技术

近来随着新冠疫情的蔓延,经常会在新闻等中听到聚集(Cluster)一词,与聚类(Clustering)词源相同,意为群体或集团。因感染者群体导致疫情集中爆发,所以尽早发现感染者群体是防止疫情蔓延的对策之一。

而用于AI(人工智能)和大数据等处理大量数据时的群集则是指数据群。随着物联网(IoT :Internet of Things)的发展,可收集的数据呈爆炸式增长。虽然大数据被称为通往创新的宝库,但分析庞大的数据并非易事。因此,AI备受期待。近年来,由于一种被称为机器学习的算法的发展,其可能性得到了大幅提高。

机器学习分为两大类,一类是以已知正确答案的数据(训练数据)为基础分析规则和模式,构建模型的“监督学习”,一类是不提供训练数据,让机器学习数据的构造、特征和相似性来进行分组的“无监督学习”。例如,事先让机器学习猫的特征,从大量的照片中抽取猫的照片,就是“监督学习”。另一方面,让机器读取大量的照片,进行从特征的提取到分类,就是“无监督学习”。将看似凌乱的数据分类到适当的组群中,使数据变得有意义,有助于有效地利用数据。

精确分类数据的三种方法

有三种聚类算法:

“层次法”是指一边构建分层结构,一边对每一个数据进行比较,对相似度高或低的群集反复进行结合和分割的方法。重复上述操作,直至所有数据都被分类,然后根据需要将数据分组到任意多个组中,最后形成一个独立的分支就完成了。

“非层次法”是指先确定最终群集的数量,然后在不创建分层结构的情况下,通过不断探索使数据进行优化划分的方法。与层次法相比,此方法计算量较小,适用于大数据分析。

“基于密度的方法”是在数据密集度较高的地方创建群集,将距离较远的数据作为噪声进行处理的方法。因为异常数据很明显,所以可以有望提高聚类的准确性。

这些方法中被广泛应用的是非层次法,特别是“k-means法”可以说是聚类的代表方法。此k-means法也被称为k均值法,是根据从各数据点到群集重心的距离,一边重组群集的构成数据一边进行调整的算法。

学生的按成绩分班也可以通过AI轻松解决

以英语的分班为例说明如何活用k-means法。

在某所学校进行了阅读和听力测试,根据成绩将学生分为五个班级。虽然也可以根据考试的平均分来分班,但是有的学生只擅长阅读,有的学生只擅长听力,还有的学生两科成绩差不多。因此,用k-means法对学生的成绩进行分类。纵轴为阅读成绩,横轴为听力成绩,我们通过在图表中标注每个人的分数找到了群集。也就是说,明确按照学生擅长和不擅长的领域划分了5个群集,成功将学习能力相近的学生分到了一个群体。

学生数量较少的情况下,老师可以进行手动计算,但是学生数量较多的情况或分班依据的科目种类较多等情况下,手动计算是有局限的。在处理如此庞大复杂的数据时,聚类可以说是一种行而有效的方法。

在此事例中,我们已经预先确定了最终的群集数量,但在许多情况下确定群集数量是很困难的。由于群集数的设定会导致结果发生变化,因此在难以决定的情况下,首先可以采用先以任意的群集数计算,再计算多于或少于任意群集数的情况,一边比较一边接近最优解的方法。

“聚类”可以有效地对大量不可见的信息进行分类和利用。基于AI的大数据分析领域的研究正在日新月异地发展。