https://stat.ethz.ch/mailman/listinfo/r-help-es
O por correo electrónico, enviando un mensaje con el texto "help" en
el asunto (subject) o en el cuerpo a:
r-help-es-request en r-project.org
Puede contactar con el responsable de la lista escribiendo a:
r-help-es-owner en r-project.org
Si responde a algún contenido de este mensaje, por favor, edite la
linea del asunto (subject) para que el texto sea mas especifico que:
"Re: Contents of R-help-es digest...". Además, por favor, incluya en
la respuesta sólo aquellas partes del mensaje a las que está
respondiendo.
Asuntos del dÃa:
1. Re: Heatmap de paro (o de otra cosa) en España
(Francisco J. Viciana)
2. Re: Test K-S con distribuciones LogNormales (rubenfcasal)
3. Re: Test K-S con distribuciones LogNormales
(VÃctor Nalda Castellet)
4. Re: Heatmap de paro (o de otra cosa) en España (Carlos Ortega)
----------------------------------------------------------------------
Message: 1
Date: Wed, 15 Oct 2014 14:05:08 +0200
From: "Francisco J. Viciana" <franciscoj.viciana en juntadeandalucia.es>
To: r-help-es en r-project.org
Subject: Re: [R-es] Heatmap de paro (o de otra cosa) en España
Message-ID: <543E62F4.9000307 en juntadeandalucia.es>
Content-Type: text/plain; charset=ISO-8859-1
Los mapas de Paro a partir de la EPA, pueden llegar como mucho a nivel
provincial para la que la muestra da datos representativos. Una
alternativa son los mapas de mortalidad, para los que hay datos con
mucho mayor nivel de detalle geográfico, véase por ejemplo esta
reciente publicación por municipios, que ha tenido bastante repercusión
en los medios
http://elpais.com/elpais/2014/09/29/media/1412009164_993167.html
Headmap de otra cosa, por ejemplo mortalidad por área pequeña
(secciones censales ...). En concreto hay fácilmente accesible una
serie de datos de mortalidad con gran detalle territorial que puede dar
mucho juego para la confección de Heatmap: son los datos de mortalidad
de la cohorte censal de AndalucÃa de 2002 a 2010 por secciones
censales. Esto datos esta descargable en forma de hipercubos en este
enlace:
http://www.juntadeandalucia.es/institutodeestadisticaycartografia/longevidad/pcaxis/consulta226.zip
La estimación de las Razón de Mortalidad Estandarizada (RME), un
sencillo y robusto indicador de mortalidad, a partir de estos datos, se
hace fácilmente con el código R que se lista en el apéndice final de
este documento:
http://www.juntadeandalucia.es/institutodeestadisticaycartografia/longevidad/metodologia/metodologia_mapa.pdf
MetodologÃa de estimaciones mas sofisticadas, sin duda mejorarÃan su
representación, por ejemplo incluyendo mas variables de ajuste o
realizando suavizaciones espaciales.
Las cobertura de las secciones censales de 2001 que se corresponde con
la clasificación geografÃa usada en estos datos se pueden descargar en
esta pagina:
http://www.juntadeandalucia.es/institutodeestadisticaycartografia/clientedescarga/
Un ejemplo de los resultados que se pueden obtener se muestra a partir
de estos datos se muestra en esta aplicación navegable:
http://www.juntadeandalucia.es/institutodeestadisticaycartografia/longevidad/mapa/index.htm
Una de las posibles navegaciones realizada sobre este mapa se muestra en
este vÃdeo:
https://www.youtube.com/watch?v=fArd9DfxjbM
Animo al personal a utilizar esto datos, asà como otros muchos que se
encuentra en la pagina de esta publicación:
http://www.juntadeandalucia.es/institutodeestadisticaycartografia/longevidad
El 14/10/14 18:48, Pedro Concejero Cerezo escribió:
Hola eRReRos, estamos preparando un talleR de coloR para el próximo
congreso y pensamos que el mejor ejemplo serÃa un mapa de España de
alguna variable interesante. Puesto que algunas de las cosas candentes
que preocupan en España son (afortunadamente) casos únicos, se nos
ocurre el gran problema del paro. Atención pregunta:
¿Hay algún script maravilloso publicado por ahà que nos permita
reproducir rápido un heatmap de paro sobre el mapa España? -o podrÃa ser
de otra cosa interesante. Sobre él aplicaremos las recomendaciones de
color.
Gracias mil!!
--
*Pedro Concejero
BI & Big Data - Internal Exploitation - Telefónica I+D
<http://www.tid.es>
E-mail: pedro.concejerocerezo en telefonica.com
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
Únete a la lista R en español
<https://stat.ethz.ch/mailman/listinfo/r-help-es#%21> y a tu gRupo local
R, el mÃo es el gRupo R madRid <http://http://madrid.r-es.org/> *
________________________________
--
+--------------------------------------------------------------
| Francisco J. Viciana Fernández
| Coordinador del Registro de Población
| Servicio de EstadÃsticas Demográficas y Sociales
| Instituto de EstadÃstica y CartografÃa de AndalucÃa
| Leonardo Da Vinci, nº 21. Isla de La Cartuja.
| 41071 SEVILLA.
| franciscoj.viciana en juntadeandalucia.es
+--------------------------------------------------------------
------------------------------
Message: 2
Date: Wed, 15 Oct 2014 14:54:01 +0200
From: rubenfcasal <rubenfcasal en gmail.com>
To: VÃctor Nalda Castellet <victor.nalda.castellet en gmail.com>,
r-help-es <r-help-es en r-project.org>
Subject: Re: [R-es] Test K-S con distribuciones LogNormales
Message-ID: <543E6E69.7020700 en gmail.com>
Content-Type: text/plain; charset="UTF-8"
Hola de nuevo,
En cuanto a otro tipo de contrastes de bondad de ajuste, podrÃas
pensar en emplear por ejemplo el test de Anderson-Darling (podrÃamos
decir que es una mejora del KS, mira p.e.
http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test). Creo que
está implementado en R (p.e. paquete goftest). Para contrastes de bondad
de ajuste, yo tengo empleado el paquete fitdistrplus y otros asociados
al paquete distr (el distrMod creo recordar...) .
Una duda que tengo es porque comparas la distribución de las medias
con la de los datos originales (ten también en cuenta que hay
dependencia entre estas muestras, p.e su media muestral es exactamente
la misma). Si tienes una distribución teórica, serÃa más eficiente
comparar directamente con esta distribución, e.g.:
ks.test(lognorm2$sample, "plnorm", meanlog = mean, sdlog = sd )
Aunque sigo obteniendo p-valor=1 con tu ejemplo.
Prueba también a variar los parámetros...
Un saludo,
Rubén F.C.
El 15/10/2014 11:26, VÃctor Nalda Castellet escribió:
Hola Ruben,
Sà precisamente es lo que comentas, en matemáticas no se suele llamar
bucketización (este término se emplea más en informática) sino datos
agrupados. Pero la idea es la que tu mismo dices.
Respecto a las gráficas que has puesto, me han aclarado mucho sobre el
tema, gracias.
Si realizo lo mismo, por ejemplo con nbucket=1000 sigo obteniendo un
p-valor de 1. Es decir, que casi le pongas lo que le pongas se obtiene
un p-valor de 1.
¿Qué otros test de contraste de hipótesis me podrÃas recomendar?
Porque igual ocurre lo que tu bien has dicho de que el test de K-S no
es precisamente el mejor para este caso.
Un saludo, y ¡¡¡muchas gracias!!!
El 15 de octubre de 2014, 10:50, rubenfcasal <rubenfcasal en gmail.com
<mailto:rubenfcasal en gmail.com>> escribió:
Hola VÃctor,
Te escribo sin tener muy claro lo que quieres hacer (me llamó
la atención lo de "datos bucketizados", es la primera vez que lo
veo en estadÃstica, aunque la terminologÃa me suena a
informática...).
Si no entiendo mal, en el segundo caso trabajas con medias de
una distribución lognormal agrupada. Simplemente hacer notar que
la distribución teórica de estas medias no es lognormal y la
varianza no coincide con la de la distribución original (es la
original dividida por el tamaño de las submuestras = n/nbucket).
En cuanto al test KS, ten en cuenta que lo que hace es
comparar funciones de distribución empÃricas:
# La de los datos originales:
curve(ecdf(sample)(x), type="s")
# Esta se parece mucho a la teórica como serÃa de esperar con una
muestra tan grande:
# curve(plnorm(x, meanlog = mean, sdlog = sd), lwd=2,add=TRUE)
# con la de las medias de las submuestras:
curve(ecdf(sample_bucket$mean)(x),type="s",lty = 2, add = TRUE)
Lo que creo que ocurre es que la segunda muestra es muy
pequeña y el test de KS no tiene evidencias para rechazar la H0.
Si consideras un numero mayor de "buckets" deberÃa rechazar. Ten
en cuenta también que el test KS puede no ser el más potente...
Un saludo,
Rubén F.C.
El 15/10/2014 9:59, VÃctor Nalda Castellet escribió:
Hola a todos, ¿que tal?
Os escribo porque llevo varios dÃas con la siguiente duda:
quiero realizar
el test de K-S para dos distribuciones lognormales, una de
ellas con datos
agrupados (bucketizados).
library(stats)
# Definimos las variables
n <- 1000000 # tamaño de la muestra
mean <- 0 # media de la dist. normal
sd <- 1 # desviación tÃpica de la dist. normal
nbucket <- 10 # numero de buckets
# Generamos la muestra de tamaño n
sample <- sort(rlnorm(n, meanlog = mean, sdlog = sd))
# Función de distribución
df <- plnorm(sample, meanlog = mean, sdlog = sd)
lognorm1 <- data.frame(sample=sample, distfun=df)
# Gráfica de la función de distribución sin bucketizar
plot(lognorm1, type = "l", col = "red")
# Bucketización - Muestra bucketizada
library(plyr)
dt <- data.frame(sample=sample, bucket=rep(1:nbucket, each =
n/nbucket))
sample_bucket <- ddply(dt,~bucket,summarise,mean=mean(sample))
# Función de distribución bucketizada
dfb <- plnorm(sample_bucket$mean, meanlog = mean, sdlog = sd)
lognorm2 <- data.frame(sample=sample_bucket$mean, distfun=dfb)
par(new=TRUE)
points(lognorm2, col = "blue")
ks.test(lognorm1$sample, lognorm2$sample) # Obtengo p-valor=1
El problema es que obtengo un p-valor de 1, y creo que deberÃa
obtener un
p-valor bastante menor. ¿Sabéis lo que está ocurriendo?
Creo que si una de las distribuciones tiene 1.000.000 de datos
y la otra
tiene 10 datos (es la aproximación de la otra), como no se
parecen en nada
deberÃa obtener un p-valor muy malo y no es asÃ:
Two-sample Kolmogorov-Smirnov test
data: lognorm1$sample and lognorm2$sample
D = 0.0683, p-value = 1
alternative hypothesis: two-sided
Respecto al tema de bucketizar, lo tengo que realizar de esa
forma.
Un saludo, y muchas gracias.
--
VÃctor Nalda Castellet
[[alternative HTML version deleted]]
------------------------------
Message: 3
Date: Wed, 15 Oct 2014 16:24:11 +0200
From: VÃctor Nalda Castellet <victor.nalda.castellet en gmail.com>
To: rubenfcasal <rubenfcasal en gmail.com>, r-help-es
<r-help-es en r-project.org>
Subject: Re: [R-es] Test K-S con distribuciones LogNormales
Message-ID:
<CAHbHS_cLH4jJtYZX6Q6Qhii9JS500BNDRjqiHi=
RkHb1gkwqSQ en mail.gmail.com>
Content-Type: text/plain; charset="UTF-8"
Hola Ruben,
Gracias por los paquetes que me comentas para realizar los contrastes de
bondad de ajuste.
Voy a seguir variando parámetros para ver los resultados que obtengo.
Un saludo y muchas gracias.
El 15 de octubre de 2014, 14:54, rubenfcasal <rubenfcasal en gmail.com>
escribió:
Hola de nuevo,
En cuanto a otro tipo de contrastes de bondad de ajuste, podrÃas
pensar en emplear por ejemplo el test de Anderson-Darling (podrÃamos
decir
que es una mejora del KS, mira p.e.
http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test). Creo que
está implementado en R (p.e. paquete goftest). Para contrastes de bondad
de
ajuste, yo tengo empleado el paquete fitdistrplus y otros asociados al
paquete distr (el distrMod creo recordar...) .
Una duda que tengo es porque comparas la distribución de las medias
con la de los datos originales (ten también en cuenta que hay dependencia
entre estas muestras, p.e su media muestral es exactamente la misma). Si
tienes una distribución teórica, serÃa más eficiente comparar
directamente
con esta distribución, e.g.:
ks.test(lognorm2$sample, "plnorm", meanlog = mean, sdlog = sd )
Aunque sigo obteniendo p-valor=1 con tu ejemplo.
Prueba también a variar los parámetros...
Un saludo,
Rubén F.C.
El 15/10/2014 11:26, VÃctor Nalda Castellet escribió:
Hola Ruben,
Sà precisamente es lo que comentas, en matemáticas no se suele llamar
bucketización (este término se emplea más en informática) sino datos
agrupados. Pero la idea es la que tu mismo dices.
Respecto a las gráficas que has puesto, me han aclarado mucho sobre el
tema, gracias.
Si realizo lo mismo, por ejemplo con nbucket=1000 sigo obteniendo un
p-valor de 1. Es decir, que casi le pongas lo que le pongas se obtiene un
p-valor de 1.
¿Qué otros test de contraste de hipótesis me podrÃas recomendar? Porque
igual ocurre lo que tu bien has dicho de que el test de K-S no es
precisamente el mejor para este caso.
Un saludo, y ¡¡¡muchas gracias!!!
El 15 de octubre de 2014, 10:50, rubenfcasal <rubenfcasal en gmail.com>
escribió:
Hola VÃctor,
Te escribo sin tener muy claro lo que quieres hacer (me llamó la
atención lo de "datos bucketizados", es la primera vez que lo veo en
estadÃstica, aunque la terminologÃa me suena a informática...).
Si no entiendo mal, en el segundo caso trabajas con medias de una
distribución lognormal agrupada. Simplemente hacer notar que la
distribución teórica de estas medias no es lognormal y la varianza no
coincide con la de la distribución original (es la original dividida
por el
tamaño de las submuestras = n/nbucket).
En cuanto al test KS, ten en cuenta que lo que hace es comparar
funciones de distribución empÃricas:
# La de los datos originales:
curve(ecdf(sample)(x), type="s")
# Esta se parece mucho a la teórica como serÃa de esperar con una
muestra
tan grande:
# curve(plnorm(x, meanlog = mean, sdlog = sd), lwd=2,add=TRUE)
# con la de las medias de las submuestras:
curve(ecdf(sample_bucket$mean)(x),type="s",lty = 2, add = TRUE)
Lo que creo que ocurre es que la segunda muestra es muy pequeña y el
test de KS no tiene evidencias para rechazar la H0. Si consideras un
numero
mayor de "buckets" deberÃa rechazar. Ten en cuenta también que el test
KS
puede no ser el más potente...
Un saludo,
Rubén F.C.
El 15/10/2014 9:59, VÃctor Nalda Castellet escribió:
Hola a todos, ¿que tal?
Os escribo porque llevo varios dÃas con la siguiente duda: quiero
realizar
el test de K-S para dos distribuciones lognormales, una de ellas con
datos
agrupados (bucketizados).
library(stats)
# Definimos las variables
n <- 1000000 # tamaño de la muestra
mean <- 0 # media de la dist. normal
sd <- 1 # desviación tÃpica de la dist. normal
nbucket <- 10 # numero de buckets
# Generamos la muestra de tamaño n
sample <- sort(rlnorm(n, meanlog = mean, sdlog = sd))
# Función de distribución
df <- plnorm(sample, meanlog = mean, sdlog = sd)
lognorm1 <- data.frame(sample=sample, distfun=df)
# Gráfica de la función de distribución sin bucketizar
plot(lognorm1, type = "l", col = "red")
# Bucketización - Muestra bucketizada
library(plyr)
dt <- data.frame(sample=sample, bucket=rep(1:nbucket, each =
n/nbucket))
sample_bucket <- ddply(dt,~bucket,summarise,mean=mean(sample))
# Función de distribución bucketizada
dfb <- plnorm(sample_bucket$mean, meanlog = mean, sdlog = sd)
lognorm2 <- data.frame(sample=sample_bucket$mean, distfun=dfb)
par(new=TRUE)
points(lognorm2, col = "blue")
ks.test(lognorm1$sample, lognorm2$sample) # Obtengo p-valor=1
El problema es que obtengo un p-valor de 1, y creo que deberÃa obtener
un
p-valor bastante menor. ¿Sabéis lo que está ocurriendo?
Creo que si una de las distribuciones tiene 1.000.000 de datos y la
otra
tiene 10 datos (es la aproximación de la otra), como no se parecen en
nada
deberÃa obtener un p-valor muy malo y no es asÃ:
Two-sample Kolmogorov-Smirnov test
data: lognorm1$sample and lognorm2$sample
D = 0.0683, p-value = 1
alternative hypothesis: two-sided
Respecto al tema de bucketizar, lo tengo que realizar de esa forma.
Un saludo, y muchas gracias.
--
VÃctor Nalda Castellet
--
VÃctor Nalda Castellet
[[alternative HTML version deleted]]
------------------------------
Message: 4
Date: Wed, 15 Oct 2014 16:33:44 +0200
From: Carlos Ortega <cof en qualityexcellence.es>
To: PEDRO CONCEJERO CEREZO <pedro.concejerocerezo en telefonica.com>
Cc: "r-help-es en r-project.org" <r-help-es en r-project.org>
Subject: Re: [R-es] Heatmap de paro (o de otra cosa) en España
Message-ID:
<
CAOKbq8jn8n9oYcLDw5_Qnwr3JGn8a3etFXgEPdniuYQcFsnxYA en mail.gmail.com>
Content-Type: text/plain; charset="UTF-8"
Hola Pedro,
Acabo de recordar que hace poco José Luis Cañadas (participa en esta lista)
publicó un enlace suyo a un análisis del paro en AnalucÃa hecho con R y
publicado en RPubs. Sobre mapas asocia diferentes nivels de paro con
diferentes matices de color (rojo)...
Este es el enlace:
http://rpubs.com/joscani/12805
Saludos,
Carlos Ortega
www.qualityexcellence.es
El 14 de octubre de 2014, 18:48, Pedro Concejero Cerezo <
pedro.concejerocerezo en telefonica.com> escribió:
Hola eRReRos, estamos preparando un talleR de coloR para el próximo
congreso y pensamos que el mejor ejemplo serÃa un mapa de España de
alguna variable interesante. Puesto que algunas de las cosas candentes
que preocupan en España son (afortunadamente) casos únicos, se nos
ocurre el gran problema del paro. Atención pregunta:
¿Hay algún script maravilloso publicado por ahà que nos permita
reproducir rápido un heatmap de paro sobre el mapa España? -o podrÃa ser
de otra cosa interesante. Sobre él aplicaremos las recomendaciones de
color.
Gracias mil!!
--
*Pedro Concejero
BI & Big Data - Internal Exploitation - Telefónica I+D <
http://www.tid.es>
E-mail: pedro.concejerocerezo en telefonica.com
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
Únete a la lista R en español
<https://stat.ethz.ch/mailman/listinfo/r-help-es#%21> y a tu gRupo local
R, el mÃo es el gRupo R madRid <http://http://madrid.r-es.org/> *
________________________________
Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
puede contener información privilegiada o confidencial y es para uso
exclusivo de la persona o entidad de destino. Si no es usted. el
destinatario indicado, queda notificado de que la lectura, utilización,
divulgación y/o copia sin autorización puede estar prohibida en virtud de
la legislación vigente. Si ha recibido este mensaje por error, le rogamos
que nos lo comunique inmediatamente por esta misma vÃa y proceda a su
destrucción.
The information contained in this transmission is privileged and
confidential information intended only for the use of the individual or
entity named above. If the reader of this message is not the intended
recipient, you are hereby notified that any dissemination, distribution
or
copying of this communication is strictly prohibited. If you have
received
this transmission in error, do not read it. Please immediately reply to
the
sender that you have received this communication in error and then delete
it.
Esta mensagem e seus anexos se dirigem exclusivamente ao seu
destinatário,
pode conter informação privilegiada ou confidencial e é para uso
exclusivo
da pessoa ou entidade de destino. Se não é vossa senhoria o destinatário
indicado, fica notificado de que a leitura, utilização, divulgação e/ou
cópia sem autorização pode estar proibida em virtude da legislação
vigente.
Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
imediatamente por esta mesma via e proceda a sua destruição
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]
------------------------------
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
Fin de Resumen de R-help-es, Vol 68, EnvÃo 22
*********************************************