聚類是指利用計算機根據樣本之間的相似度將整個樣本集合聚集成若干個類的過程。其目標是使得屬于同一個類的樣本盡量相似,而屬于不同類的樣本差別明顯。系統聚類法和k-Means算法是目前聚類分析中應用最多的兩種方法。分類是根據已經掌握的每類若干樣本的數據信息,總結出分類的規律性,建立判別公式和判別規則。
聚類和分類
當遇到新的樣本時,只需根據判別公式和判別規則,就能判別該樣本所屬的類別。分類技術包括統計、模式識別、人工智能、神經網絡等多個領域。目前常用的分類方法有Bayes判別法、k最近鄰(kNN)方法、支持向量機(SVM)方法、決策樹方法等。聚類是一種無指導的學習過程,而分類則是有指導的學習過程。
聚類和分類的區別還在于:聚類事先沒有類表,完全是按照樣本間的相似度來進行,即先有樣本后有類;而分類則是基于某種預定的類表,將類表中的條目賦給樣本,即先有類后有樣本。
