机器学习 - 无监督

到目前为止,您所看到的是让机器学会找出我们目标的解决方案。 在回归中,我们训练机器预测未来值。 在分类中,我们训练机器将未知对象分类到我们定义的类别之一中。 简而言之,我们一直在训练机器,以便它可以预测我们的数据 X 的 Y。给定一个庞大的数据集并且不估计类别,我们很难使用监督学习来训练机器。 如果机器可以查找和分析运行到数 GB 和 TB 的大数据并告诉我们这些数据包含这么多不同的类别怎么办?


无监督学习算法

现在让我们讨论一种在无监督机器学习中广泛使用的分类算法。

k-均值聚类

美国 2000 年和 2004 年的总统选举非常接近。 任何候选人获得的普选票最高百分比为 50.7%,最低为 47.9%。 如果一定比例的选民改变立场,选举结果就会不同。 有一小部分选民,如果得到适当的呼吁,就会改变立场。 这些群体可能并不庞大,但在如此接近的比赛中,它们可能大到足以改变选举结果。 您如何找到这些人群? 您如何在预算有限的情况下吸引他们? 答案是聚类。

让我们了解它是如何完成的。

  • 首先,无论是否同意,您都会收集有关人们的信息:任何类型的信息都可能提供一些线索,说明什么对他们很重要以及什么会影响他们的投票方式。

  • 然后你把这些信息放入某种聚类算法中。

  • 接下来,对于每个集群(首先选择最大的集群是明智之举),您制作一条能够吸引这些选民的信息。

  • 最后,您交付活动并衡量它是否有效。

聚类是一种无监督学习,可以自动形成相似事物的集群。 这就像自动分类。 您几乎可以对任何东西进行聚类,并且聚类中的项目越相似,聚类就越好。 在本章中,我们将研究一种称为 k-means 的聚类算法。 之所以称为 k-means,是因为它找到了"k"个唯一的聚类,每个聚类的中心是该聚类中值的平均值。

集群识别

聚类识别告诉算法,"这里有一些数据。 现在将类似的事情归为一类,然后告诉我这些群体的情况。" 与分类的主要区别在于,在分类中你知道你在寻找什么。 而在集群中情况并非如此。

聚类有时被称为无监督分类,因为它产生与分类相同的结果,但没有预定义的类。

现在,我们对有监督和无监督学习都很满意。 要了解其余的机器学习类别,我们必须首先了解人工神经网络 (ANN),我们将在下一章中学习。