wwttc
V2EX  ›  问与答

K-Means 算法如何选择 k?

  •  
  •   wwttc · Dec 22, 2014 · 4853 views
    This topic created in 4186 days ago, the information mentioned may be changed or developed.
    如何选择将数据集分为几个cluster?有什么常用的标准吗?
    11 replies    2014-12-22 14:33:39 +08:00
    rock_cloud
        1
    rock_cloud  
       Dec 22, 2014
    我一般根据数据的特点来选择,不过目前有些算法是可以自动确定K值的。
    楼主可以去看看Rival penalized competitive learning,一个很神奇的聚类算法。
    robbielj
        2
    robbielj  
       Dec 22, 2014
    不是euclidean distance么
    xunyu
        3
    xunyu  
       Dec 22, 2014
    这个看你数据内容了
    47jm9ozp
        5
    47jm9ozp  
       Dec 22, 2014
    1到n都试一下,看看哪个比较内聚
    ozking
        6
    ozking  
       Dec 22, 2014
    @ooxxcc +1
    ligyxy
        7
    ligyxy  
       Dec 22, 2014
    基本思路和stepwise一样
    kafei0421
        8
    kafei0421  
       Dec 22, 2014
    K-Means选择K本来就是直接关系结果好坏,大概还是根据数据集然后经验做判断吧。资源允许就多试试咯。
    Todd_Leo
        9
    Todd_Leo  
       Dec 22, 2014
    你可以用Elbow Method, Gap Statistics, 轮廓系数还有Hopkins统计量来评估簇数. 当然Elbow Method是最简单最直观的
    meta
        10
    meta  
       Dec 22, 2014
    基本上就是用眼睛看,本来k-means这种玩意儿就是用来试着分类的,又没什么准确结果。一次不行多换几个参数刷几次呗。
    efi
        11
    efi  
       Dec 22, 2014
    empirically
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   911 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 21:26 · PVG 05:26 · LAX 14:26 · JFK 17:26
    ♥ Do have faith in what you're doing.