[R-es] Normalidad variable > 5000 observaciones

4 messages · Rafael Santamaria, Carlos Ortega, Guido Corradi +1 more

Original

1

4

Rafael Santamaria

Sun, Apr 26, 2020 3:10 AM #

Hola!

Necesito evaluar la normalidad de una variable para la que tengo mÃ¡s de
5000 observaciones.

Shapiro-Wilks no funciona para muestras mayores 5000 observaciones.

AAlshap <- lapply(AAdf, shapiro.test)
Error in FUN(X[[i]], ...) : sample size must be between 3 and 5000

Alguna sugerencia?

Gracias.

Sun, Apr 26, 2020 3:51 AM #

Hola,

AquÃ tienes una forma alternativa:

https://stackoverflow.com/questions/17125458/r-shapiro-test-cannot-deal-with-more-than-5000-data-points

Saludos,
Carlos Ortega
www.qualityexcellence.es

El dom., 26 abr. 2020 a las 12:11, Rafael Santamaria (<
rsantamariao en gmail.com>) escribiÃ³:

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Sun, Apr 26, 2020 8:49 AM #

Las pruebas de normalidad en muestras grandes sufren de sobre-sensiblidad.
SegÃºn lo que he leÃdo (y cualquier reviewer aceptarÃ¡...) cuando hay una
muestra grande la inspecciÃ³n visual del qq-plot serÃ¡ suficiente!


El dom., 26 abr. 2020 a las 12:51, Carlos Ortega (<cof en qualityexcellence.es>)
escribiÃ³:

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

?Guido B. Corradi <http://corradi.info/>
PhD at EvoCog <http://evocog.org/es/>
?Profesor en la Universidad Camilo JosÃ© Cela? <https://www.ucjc.edu/>
coeditor en Rasgo Latente <http://rasgolatente.es/>
@GuidoBCor

	[[alternative HTML version deleted]]

José Trujillo Carmona

Mon, Apr 27, 2020 12:17 AM #

Efectivamente Guido tiene razÃ³n. Una prueba de normalidad a una muestra 
que supera las 5000 observaciones no tiene mucho sentido.

Igual que ningÃºn dado es exactamente equiprobable, a algÃºn nivel de 
detalle habrÃ¡ una irregularidad que lo haga en algÃºn sentido defectuoso, 
ninguna variable real es exactamente normal. La distribuciÃ³n normal es 
una distribuciÃ³n teÃ³rica que es esperable que aparezca mucho como 
consecuencia del teorema del lÃmite central; pero solo igual que el 
dado. Son modelos teÃ³ricos para predecir comportamientos que en la 
naturaleza solo aparecerÃ¡n de forma aproximada.

Si tienes muchas observaciones, las desviaciones del modelo se harÃ¡n 
relevantes y algÃºn tests adecuado mostrarÃ¡ que es una variable real y no 
un modelo teÃ³rico.

Si deseas predecir observaciones con mucha precisiÃ³n en la probabilidad 
asociada a las predicciones, en lugar de utilizar una distribuciÃ³n 
teÃ³rica tienes algunas alternativas. Por una parte puedes estimar la 
propia distribuciÃ³n de probabilidad mediante nÃºcleos (consultar 
stats::density y car::densityPlot) o mediante tÃ©cnicas de bootstrap.

Por otra parte, si el objetivo es la aplicaciÃ³n de tÃ©cnicas 
paramÃ©tricas, el propio teorema sirve para resolver el problema. La 
mayorÃa de los estadÃsticos utilizados en los mÃ©todos paramÃ©tricos 
pueden ser escritos como combinaciones lineales de las observaciones, lo 
que permite tratarlos como si tuviesen distribuciÃ³n aproximadamente 
normal. Por otro lado si, note fÃas o te es insuficiente, los mÃ©todos 
basado en bootstrap vuelven a ser una soluciÃ³n mÃ¡s que adecuada.

En definitiva, aunque puedo estar equivocado, no se me ocurre la 
necesidad de aplicar contrastes de normalidad Ãºtiles a enormes muestras.

Saludos.

El 26/4/20 a las 17:49, Guido Corradi escribiÃ³:

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es