K-Means 算法如何选择 k？

This topic created in 4236 days ago, the information mentioned may be changed or developed.

如何选择将数据集分为几个cluster？有什么常用的标准吗？

11 replies • 2014-12-22 14:33:39 +08:00

rock_cloud

Dec 22, 2014

我一般根据数据的特点来选择，不过目前有些算法是可以自动确定K值的。
楼主可以去看看Rival penalized competitive learning，一个很神奇的聚类算法。

robbielj

Dec 22, 2014

不是euclidean distance么

xunyu

Dec 22, 2014

这个看你数据内容了

staticor

Dec 22, 2014

47jm9ozp

Dec 22, 2014

1到n都试一下，看看哪个比较内聚

ozking

Dec 22, 2014

ligyxy

Dec 22, 2014

基本思路和stepwise一样

kafei0421

Dec 22, 2014

K-Means选择K本来就是直接关系结果好坏，大概还是根据数据集然后经验做判断吧。资源允许就多试试咯。

Todd_Leo

Dec 22, 2014

你可以用Elbow Method, Gap Statistics, 轮廓系数还有Hopkins统计量来评估簇数. 当然Elbow Method是最简单最直观的

meta

Dec 22, 2014

基本上就是用眼睛看，本来k-means这种玩意儿就是用来试着分类的，又没什么准确结果。一次不行多换几个参数刷几次呗。

efi

Dec 22, 2014

empirically