[R-es] Test K-S con distribuciones LogNormales

Wed, Oct 15, 2014 5:54 AM

Hola de nuevo,

     En cuanto a otro tipo de contrastes de bondad de ajuste, podrÃas 
pensar en emplear por ejemplo el test de Anderson-Darling (podrÃamos 
decir que es una mejora del KS, mira p.e. 
http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test). Creo que 
estÃ¡ implementado en R (p.e. paquete goftest). Para contrastes de bondad 
de ajuste, yo tengo empleado el paquete fitdistrplus y otros asociados 
al paquete distr (el distrMod creo recordar...) .

     Una duda que tengo es porque comparas la distribuciÃ³n de las medias 
con la de los datos originales (ten tambiÃ©n en cuenta que hay 
dependencia entre estas muestras, p.e su media muestral es exactamente 
la misma). Si tienes una distribuciÃ³n teÃ³rica, serÃa mÃ¡s eficiente 
comparar directamente con esta distribuciÃ³n, e.g.:
ks.test(lognorm2$sample, "plnorm", meanlog = mean, sdlog = sd )
Aunque sigo obteniendo p-valor=1 con tu ejemplo.
     Prueba tambiÃ©n a variar los parÃ¡metros...

     Un saludo,
         RubÃ©n F.C.

El 15/10/2014 11:26, VÃctor Nalda Castellet escribiÃ³:

Hola Ruben,

SÃ precisamente es lo que comentas, en matemÃ¡ticas no se suele llamar 
bucketizaciÃ³n (este tÃ©rmino se emplea mÃ¡s en informÃ¡tica) sino datos 
agrupados. Pero la idea es la que tu mismo dices.

Respecto a las grÃ¡ficas que has puesto, me han aclarado mucho sobre el 
tema, gracias.

Si realizo lo mismo, por ejemplo con nbucket=1000 sigo obteniendo un 
p-valor de 1. Es decir, que casi le pongas lo que le pongas se obtiene 
un p-valor de 1.

Â¿QuÃ© otros test de contraste de hipÃ³tesis me podrÃas recomendar? 
Porque igual ocurre lo que tu bien has dicho de que el test de K-S no 
es precisamente el mejor para este caso.


Un saludo, y Â¡Â¡Â¡muchas gracias!!!

El 15 de octubre de 2014, 10:50, rubenfcasal <rubenfcasal en gmail.com 
<mailto:rubenfcasal en gmail.com>> escribiÃ³:

    Hola VÃctor,

        Te escribo sin tener muy claro lo que quieres hacer (me llamÃ³
    la atenciÃ³n lo de "datos bucketizados", es la primera vez que lo
    veo en estadÃstica, aunque la terminologÃa me suena a informÃ¡tica...).

        Si no entiendo mal, en el segundo caso trabajas con medias de
    una distribuciÃ³n lognormal agrupada. Simplemente hacer notar que
    la distribuciÃ³n teÃ³rica de estas medias no es lognormal y la
    varianza no coincide con la de la distribuciÃ³n original (es la
    original dividida por el tamaÃ±o de las submuestras =  n/nbucket).

        En cuanto al test KS, ten en cuenta que lo que hace es
    comparar funciones de distribuciÃ³n empÃricas:
    # La de los datos originales:
    curve(ecdf(sample)(x), type="s")
    # Esta se parece mucho a la teÃ³rica como serÃa de esperar con una
    muestra tan grande:
    # curve(plnorm(x, meanlog = mean, sdlog = sd), lwd=2,add=TRUE)

    # con la de las medias de las submuestras:
    curve(ecdf(sample_bucket$mean)(x),type="s",lty = 2, add = TRUE)

        Lo que creo que ocurre es que la segunda muestra es muy
    pequeÃ±a y el test de KS no tiene evidencias para rechazar la H0.
    Si consideras un numero mayor de "buckets" deberÃa rechazar. Ten
    en cuenta tambiÃ©n que el test KS puede no ser el mÃ¡s potente...

        Un saludo,
            RubÃ©n F.C.




    El 15/10/2014 9:59, VÃctor Nalda Castellet escribiÃ³:

        Hola a todos, Â¿que tal?

        Os escribo porque llevo varios dÃas con la siguiente duda:
        quiero realizar
        el test de K-S para dos distribuciones lognormales, una de
        ellas con datos
        agrupados (bucketizados).

        library(stats)

        # Definimos las variables
        n <- 1000000 # tamaÃ±o de la muestra
        mean <- 0 # media de la dist. normal
        sd <- 1 # desviaciÃ³n tÃpica de la dist. normal
        nbucket <- 10 # numero de buckets

        # Generamos la muestra de tamaÃ±o n
        sample <- sort(rlnorm(n, meanlog = mean, sdlog = sd))
        # FunciÃ³n de distribuciÃ³n
        df <- plnorm(sample, meanlog = mean, sdlog = sd)
        lognorm1 <- data.frame(sample=sample, distfun=df)
        # GrÃ¡fica de la funciÃ³n de distribuciÃ³n sin bucketizar
        plot(lognorm1, type = "l", col = "red")

        # BucketizaciÃ³n - Muestra bucketizada
        library(plyr)
        dt <- data.frame(sample=sample, bucket=rep(1:nbucket, each =
        n/nbucket))
        sample_bucket <- ddply(dt,~bucket,summarise,mean=mean(sample))

        # FunciÃ³n de distribuciÃ³n bucketizada
        dfb <- plnorm(sample_bucket$mean, meanlog = mean, sdlog = sd)
        lognorm2 <- data.frame(sample=sample_bucket$mean, distfun=dfb)
        par(new=TRUE)
        points(lognorm2, col = "blue")

        ks.test(lognorm1$sample, lognorm2$sample) # Obtengo p-valor=1

        El problema es que obtengo un p-valor de 1, y creo que deberÃa
        obtener un
        p-valor bastante menor. Â¿SabÃ©is lo que estÃ¡ ocurriendo?
        Creo que si una de las distribuciones tiene 1.000.000 de datos
        y la otra
        tiene 10 datos (es la aproximaciÃ³n de la otra), como no se
        parecen en nada
        deberÃa obtener un p-valor muy malo y no es asÃ:

        Two-sample Kolmogorov-Smirnov test

        data:  lognorm1$sample and lognorm2$sample
        D = 0.0683, p-value = 1
        alternative hypothesis: two-sided

        Respecto al tema de bucketizar, lo tengo que realizar de esa
        forma.



        Un saludo, y muchas gracias.





-- 
VÃctor Nalda Castellet

[R-es] Test K-S con distribuciones LogNormales

Thread (3 messages)