[R-es] Valores faltantes en SVM aplicado a microarrays
Hola Patricia, Me temo que has descrito las dos posibles opciones. 2009/10/22 Usuario R <r.user.spain en gmail.com>:
Hola, QuerÃa preguntar si alguien conoce alguna referencia que pueda ayudarme a entender cuál es la mejor forma de lidiar con valores faltantes para aplicar svm en datos de microarrays. Estoy pensando que una buena solución es eliminar la variable en la que exista un valor faltante de la matriz de datos. En el paquete e1070 de R se elimina la muestra que contiene valores faltantes, pero eso para datos de microarrays implica eliminar miles de observaciones por un solo valor faltante. No tiene sentido en mi opinión. La imputación tampoco me parece lo mas adecuado, porque aunque es poco probable, puede haber muchos valores faltantes en una de las clases y entonces estarÃamos imputando con valores de las otras, eliminando variabilidad en el modelo.
Si fuera a hacer imputación, y tuviera tiempo, usarÃa imputación múltiple. En cuanto a lo segundo que planteas, la existencia de un sustancial desequilibrio en missings entre las clases, puede ser indicación de problemas más serios. A qué se debe? Se han hecho todas las array de alguna de las clases en algunos cristales concretos que son de baja calidad? Y si hay sesgo en missing patterns, no habrá sesgos en los valores que no son missing? Etc. En cualquier caso, una idea rápida te la puedes hacer en un momento. Software: no estoy al corriente, pero en los últimos 6 meses han aparecido varios papers sobre análisis de SNPs con missing values en el contexto de "genome wide association studies" (aunque no se si usan SVMs; sospecho que no) y al menos algunos tenÃan software. R.
En fin, no sé si alguien tiene alguna idea o conocéis un paquete de R que me ofrezca solución. Muchas gracias, un saludo     [[alternative HTML version deleted]]
_______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Ramon Diaz-Uriarte Structural Biology and Biocomputing Programme Spanish National Cancer Centre (CNIO) http://ligarto.org/rdiaz Phone: +34-91-732-8000 ext. 3019