Skip to content
Prev 685 / 15379 Next

[R-es] Goodness

Hola, ¿qué tal?

En efecto, es un tema de discusión recurrente y creo que fui yo quien lo
saqué a colación por primera vez el año pasado. Trabajaba en un lugar en
el que tenían un programa (en Matlab, aunque lo que se aplique a Matlab
se puede extrapolar a R) que trataba de resolver un problema análogo:
dada una muestra de valores (eran siempre positivos) buscar la
distribución (dentro de un conjunto preestablecido) que mejor se ajusta
a ellos.

Además, en realidad, no interesaba conocer la distribución sino para
calcular posteriormente ciertos estadísticos asociados a ella. Se
trataba de determinados cuantiles.

La clase de distribuciones que manejábamos incluía algunas para las que
existían parámetros que se podían calcular analíticamente. Otros no y
hacía falta recurrir a el equivalente en Matlab de "fitdist" (que llama
internamente a "optim", si mal no recuerdo).

Además, usar fitdist "universalmente" daba lugar a respuestas
manifiestamente subóptimas (caso eminente: distribuciones para las que
uno de los parámetros indicaba el soporte de la distribución). Mis
predecesores en el desarrollo de esa solución tuvieron el acierto (que
les evitó mucho trabajo) de suprimir los "warnings" para no tener que
preocuparse de los alarmantes avisos de Matlab y así llegar a casa a
cenar a tiempo todos los días.

Después de algunas discusiones (entre ellas una en la lista), la
política que se siguió para el desarrollo de la solución fue el siguiente:

1) Para el ajuste de las distribuciones, crear clases que las extendían
y que incorporaban una nuevo método (se llamaba "mle") que era capaz de
identificar aquellos parámetros calculables analíticamente y que
realizaba llamadas a "optim" para los restantes. Cada distribución, por
lo tanto, se ajustaba, potencialmente, de una manera distinta.

2) Para solventar el problema del posible sobreajuste (y eludir la
falacia del polinomio de orden n-1) y dado que el interés máximo
radicaba en determinados cuantiles, lo que se ensayó fue realizar varios
ajustes con muestras de los datos originales, calcular el estadístico de
interés para cada una de ellas y utilizar la varianza de la muestra (de
estadísticos) resultante como índice de sobreajuste. La combinación de
los estadísticos tradicionales de ajuste con el de la varianza del
estadístico resultante guiaba la elección de la distribución "ganadora".

El problema de encontrar la "mejor" distribución, aunque escandalice a
los puristas, aparece tantas veces en la práctica que no cabe sino
afrontarlo. Y cada vez, en cada contexto, con una estrategia distinta.

Un cordial saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com
Pablo Emilio Verde wrote: