[R-es] Remuestreo de Clusters - R-help-es

Wed, Jun 24, 2009 4:09 PM #
Hola, Â¿quÃ© tal?

SerÃa interesante poder echarle un buen vistazo a esos programas y
mÃ©todos de Statistical Innovations. Pero Ã©sa es otra historia.

El problema de tus iteraciones consiste en que en funciÃ³n de la
elecciÃ³n de los centroides originales, k-means queda atrapado en uno u
otro mÃnimo local distinto. Es muy difÃcil saber si el clÃºster 4 de la
iteraciÃ³n 729 se corresponde con el clÃºster 7 de la iteraciÃ³n 273.

Lo que tal vez pudiera darte idea de si los clÃºsters recogen la
estructura de los datos es un algoritmo basado en lo siguiente:

1) Toma un x% de tus datos y ajusta un kmeans, guarda los centroides.

2) Itera cierto nÃºmero de veces lo siguente:

2a) Muestrea un x% de tus datos.
2b) Ajusta un kmeans obligando a que el algoritmo arranque _desde tus
centroides originales_.

3) Mira a ver si cada observaciÃ³n tiende a caer siempre en el mismo clÃºster.

El paso 2b serÃa fÃ¡cil de realizar si las etiquetas de los clÃºsters se
relacionasen (habrÃa que comprobarlo) con el orden de los centroides
de partida. Pero, vale la pena insistir, es clave poder arrancar desde
centroides dados.

No se me ocurre cuÃ¡l podrÃa ser la hipÃ³tesis H0 de partida sobre la
que construir un p-valor: Â¿tal vez que los datos originales proceden,
por ejemplo, de una distribuciÃ³n normal con media y varianza dadas?

Un saludo,

Carlos J. Gil Bellosta