[R-es] Una pregunta de estadística (marginalmente relacionada con R)

MuchÃsimas gracias... voy a echarle un vistazo a ver quÃ© tal se comporta...

El dÃa 30 de abril de 2009 18:20, Jorge Ivan Velez
<jorgeivanvelez en gmail.com> escribiÃ³:
Carlos,
Esta es mi propuesta:
# Librerias
require(MASS)
require(survival)
require(sm)
# Distribuciones comunes en MASS y survival
dis <- c("exponential", "lognormal", "logistic", "weibull")
# Vector de datos
set.seed(123)
x <- rweibull(100, shape = 2, scale = 10)
n <- length(x)
# Ejemplo para la weibull
param <- fitdistr(x,dis[4])[[1]]
simu <- rweibull(n, param[1], param[2])
# AIC
tmpf <- extractAIC(survreg(Surv(x)~1, dist=dis[4]))[2]
tmpf #[1] 579.6235
# Densidades
ddx <- density(x)
ddsimu <- density(simu)
plot(ddx, xlim=range(ddx$x, ddsimu$x), ylim=range(ddx$y, ddsimu$y))
points(ddsimu, type='l', col=2)
legend('topleft',c('Real','Simulados'), col=1:2, lty=1)

# Ahora comparemos las densidades via sm.density.compare en sm
# Preparando los datos
y <- c(x, simu)
gr <- rep(c(1,2), each = n)
sm.density.compare(y, gr, model="equal") Â # Test of equal densities:
Â p-value = Â 0.56
Lo que quedaria faltando es la implementaciÃ³n del bootstrap para el AIC,
pero creo que ya es un poco mÃ¡s fÃ¡cil. PodrÃas contruir todo lo anterior en
una funciÃ³n y luego usar replicate().
Otra opciÃ³n es usar ks.test() para comparar la distribuciÃ³n de x con la
distribuciÃ³n de los datos generados via simulaciÃ³n:

# Esto es SOLO para la weibull
# -- habria que modificarlo para las demas
estimeKS <- function(x, alpha=0.05){

Â Â  Â  Â # EstimaciÃ³n de la distribuciÃ³n (dist) y cÃ¡lculo del AIC
Â Â  Â  Â n <- length(x)
Â Â  Â  Â param <- fitdistr(x,dis[4])[[1]]
Â Â  Â  Â simu <- rweibull(n, param[1], param[2])
Â Â  Â  Â # KS
Â Â  Â  Â tmpf <- ks.test(x, simu)$p.value
Â Â  Â  Â tmpf > alpha Â # Acepto Ho: F(x) = G(simu)?
}
# --------
# Ejemplo
# --------
# Datos
set.seed(123)
x <- rweibull(100, shape = 2, scale = 10)
KSs <- replicate(1000, estimeKS(x))
sum(KSs)/1000 Â  # [1] 0.998

Un saludo,
Jorge Ivan Velez

2009/4/30 Jorge Ivan Velez <jorgeivanvelez en gmail.com>
Hola Carlos,
PodrÃas hacer las simulaciones con diferentes tamaÃ±os de muestra (n)
cuando generas las observaciones de la distribuciÃ³n especÃfica. Lo comÃºn es
usar n como la longitud del vector que quieres ajustar a determinada
distribuciÃ³n; sin embargo, esto no quiere decir que no puedes utilizar algÃºn
otro valor.
Ten en cuenta que bootstrap es importante para validar que efectivamente
la distribuciÃ³n que ajustas es "la que potencialmente" generÃ³ los datos como
dice Pablo.

En cuanto al programa, serÃa algo como lo siguiente ( en palabras :-( Â ):
1. Tomar el vector de observaciones (digamos x) y ajustar una distribuciÃ³n
(digamos F*) dentro de la gama de posibilidades usando, por ejemplo,
fitdistr en MASS.
2. Generar n (o mÃ¡s) observaciones de F* y calcular el AIC. (DeberÃas usar
el cÃ³digo de Pablo :-) ).
3. Repetir el paso anterior N veces y construir, por ejemplo, un intervalo
de confianza para el AIC estimado. Para ello puedes usar la funciÃ³n boot en
la libreria boot.
4. Repetir 1-3 para las demÃ¡s distribuciones en tu gamma.
5. Reportar los resultados y comparar.
Pablo: Muchas gracias por el cÃ³digo que envÃas; es fÃ¡cil de implementar y
entender. Alguna idea de cÃ³mo extenderlo, por ejemplo a la distribuciÃ³n
gamma?
Un saludo a ambos,
Jorge Ivan Velez

2009/4/30 Carlos J. Gil Bellosta <cgb en datanalytics.com>
Muchas gracias por la contestaciÃ³n (y bienvenido a la lista).

PensÃ© en utilizar AIC pero me da algo de miedo cuando los modelos no
estÃ¡n anidados (la exponencial lo estÃ¡, en cierto modo, en la
weibull), pero, en general...

Â¿Has probado a experimentar con tu cÃ³digo y a probar distintos valores
del nÃºmero de datos y de distribuciones con los que los generas?

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El dÃa 30 de abril de 2009 16:23, Pablo Emilio Verde
<PabloEmilio.Verde en uni-duesseldorf.de> escribiÃ³:
Este ejemplo te puede servir. Utilizo las distribuciones que estan la
funcion survreg() del paquete survival y extraigo en AIC con la
funcion extractAIC() del paquete MASS.

#################################################
set.seed(123)
x <- rweibull(100, shape = 2, scale = 10)

library(MASS) # para aplicar extractAIC
library(survival) # para survreg

distrib <-c("weibull", "exponential", "gaussian", "logistic",
Â "lognormal", "loglogistic")

for( Dis in distrib){ tmpf <-extractAIC(survreg(Surv(x)~1, dist=Dis))
Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  Â  cat(Dis, ", AIC = ",tmpf[2], "\n")
Â  Â  Â  Â  Â  Â  Â  }
#################################################

El menor valor de AIC indica la distribucion de probabiliad que
potencialmente genero los datos.

Pablo

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es