Hola, ¿qué tal? SerÃa interesante poder echarle un buen vistazo a esos programas y métodos de Statistical Innovations. Pero ésa es otra historia. El problema de tus iteraciones consiste en que en función de la elección de los centroides originales, k-means queda atrapado en uno u otro mÃnimo local distinto. Es muy difÃcil saber si el clúster 4 de la iteración 729 se corresponde con el clúster 7 de la iteración 273. Lo que tal vez pudiera darte idea de si los clústers recogen la estructura de los datos es un algoritmo basado en lo siguiente: 1) Toma un x% de tus datos y ajusta un kmeans, guarda los centroides. 2) Itera cierto número de veces lo siguente: 2a) Muestrea un x% de tus datos. 2b) Ajusta un kmeans obligando a que el algoritmo arranque _desde tus centroides originales_. 3) Mira a ver si cada observación tiende a caer siempre en el mismo clúster. El paso 2b serÃa fácil de realizar si las etiquetas de los clústers se relacionasen (habrÃa que comprobarlo) con el orden de los centroides de partida. Pero, vale la pena insistir, es clave poder arrancar desde centroides dados. No se me ocurre cuál podrÃa ser la hipótesis H0 de partida sobre la que construir un p-valor: ¿tal vez que los datos originales proceden, por ejemplo, de una distribución normal con media y varianza dadas? Un saludo, Carlos J. Gil Bellosta
[R-es] Remuestreo de Clusters
1 message · Carlos J. Gil Bellosta