[R-es] Goodness

Hola, Â¿quÃ© tal?

En efecto, es un tema de discusiÃ³n recurrente y creo que fui yo quien lo
saquÃ© a colaciÃ³n por primera vez el aÃ±o pasado. Trabajaba en un lugar en
el que tenÃan un programa (en Matlab, aunque lo que se aplique a Matlab
se puede extrapolar a R) que trataba de resolver un problema anÃ¡logo:
dada una muestra de valores (eran siempre positivos) buscar la
distribuciÃ³n (dentro de un conjunto preestablecido) que mejor se ajusta
a ellos.

AdemÃ¡s, en realidad, no interesaba conocer la distribuciÃ³n sino para
calcular posteriormente ciertos estadÃsticos asociados a ella. Se
trataba de determinados cuantiles.

La clase de distribuciones que manejÃ¡bamos incluÃa algunas para las que
existÃan parÃ¡metros que se podÃan calcular analÃticamente. Otros no y
hacÃa falta recurrir a el equivalente en Matlab de "fitdist" (que llama
internamente a "optim", si mal no recuerdo).

AdemÃ¡s, usar fitdist "universalmente" daba lugar a respuestas
manifiestamente subÃ³ptimas (caso eminente: distribuciones para las que
uno de los parÃ¡metros indicaba el soporte de la distribuciÃ³n). Mis
predecesores en el desarrollo de esa soluciÃ³n tuvieron el acierto (que
les evitÃ³ mucho trabajo) de suprimir los "warnings" para no tener que
preocuparse de los alarmantes avisos de Matlab y asÃ llegar a casa a
cenar a tiempo todos los dÃas.

DespuÃ©s de algunas discusiones (entre ellas una en la lista), la
polÃtica que se siguiÃ³ para el desarrollo de la soluciÃ³n fue el siguiente:

1) Para el ajuste de las distribuciones, crear clases que las extendÃan
y que incorporaban una nuevo mÃ©todo (se llamaba "mle") que era capaz de
identificar aquellos parÃ¡metros calculables analÃticamente y que
realizaba llamadas a "optim" para los restantes. Cada distribuciÃ³n, por
lo tanto, se ajustaba, potencialmente, de una manera distinta.

2) Para solventar el problema del posible sobreajuste (y eludir la
falacia del polinomio de orden n-1) y dado que el interÃ©s mÃ¡ximo
radicaba en determinados cuantiles, lo que se ensayÃ³ fue realizar varios
ajustes con muestras de los datos originales, calcular el estadÃstico de
interÃ©s para cada una de ellas y utilizar la varianza de la muestra (de
estadÃsticos) resultante como Ãndice de sobreajuste. La combinaciÃ³n de
los estadÃsticos tradicionales de ajuste con el de la varianza del
estadÃstico resultante guiaba la elecciÃ³n de la distribuciÃ³n "ganadora".

El problema de encontrar la "mejor" distribuciÃ³n, aunque escandalice a
los puristas, aparece tantas veces en la prÃ¡ctica que no cabe sino
afrontarlo. Y cada vez, en cada contexto, con una estrategia distinta.

Un cordial saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

[R-es] Goodness

Thread (5 messages)