聚类是什么?(kmeans)

  1. 不同于前面的监督学习(有类别作为参考),聚类是无监督学习,算法可以自己将相似的样本分为一类。
  2. 分类可以对不同类别进行针对性的操作。

如何做到?

  1. 找到k个聚类中心。
  2. 将点按照距离分为k类。
    • 欧氏距离:根号下…,用的最多。
    • 余弦距离
    • 马氏距离
  3. 策略:计算所有点到相应聚类中心的距离,求和,取最小。一般可以用迭代的方式。
    <center>策略
    策略
  4. 具体方法:
    不断寻找新的聚类中心,但有缺点:聚类中心到底需要几个?初始化,局部最优问题?
    <center>具体
    具体

解决细节问题

  1. K值的确定:
    肘方法(elbow方法)
    k选择肘图转折点对应的k值即可。
  2. 局部最优问题:
    K-Means++算法。(sklearn里面大多用这个算法)
    <center>kmeans++算法
    kmeans++算法