[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Carlos, creo que la respuesta la ha dado ya José Trujillo Carmona. Si
el Banco de España quiere detectar desviaciones poblacionales
significativas, el Banco de España es el que debe decidir qué es lo
que considera "significativo", no en el sentido de p-valor, sino en el
sentido de "desviación que me importa". (Y lo qué es o no importante
imagino que depende de las consecuencias de esas desviaciones, etc,
etc. Supongo que para eso tienen economistas en el BE :-).
O sea, es el "subject matter knowledge" lo que debe dictaminar cual es
la diferencia mÃnima que queremos detectar, NO el p-valor per se. A
partir de ahÃ, uno construye un test apropiado para detectar esas
diferencias que nos importan.
Como ya ha indicado Jo?e, la idea de bioequivalence et al. es
apropiada aquÃ. Por ejemplo, copio de un artÃculo en The American
Statistician de Barker et al. ("Equivalence Testing for Binomial
Random Variables: Which Test to Use?", The American Statistician,
55(4), pp. 279-287, 2001). "In studies intended to show that two
populations are practically equivalent, the null hypothesis that a
substantial difference between the populations exists is more
appropriate". Y "In equivalence testing, a difference is specified
between parameters such that the experimenter does not care about a
smaller difference, but does care about a larger difference". Etc.
Pero me gustarÃa ser capaz de proponer una medida alternativa al estadÃstico que da lugar al test de la chi-cuadrado que, como propiedad deseable, no dependiese de n (el tamaño muestral)...
Me temo que ese deseo sencillamente no puede ser satisfecho Un saludo, R. P.D. No estoy seguro de que lo que menciona Kjetil sea aplicable inmediatamente a este caso. El problema que examina Efron es el contraste de muchas (miles a centenares de miles) de hipótesis nulas, como se da frecuentemente en genómica. Pero si entiendo bien tu estás satisfecho con UNA sola hipótesis nula (lo que falta es decidir exactamente CUAL es esa unica hipótesis nula que tienes). 2009/7/20 Carlos J. Gil Bellosta <cgb en datanalytics.com>:
Hola, ¿qué tal? El problema que motiva mi mensaje es el siguiente. Imaginad un banco que ha concedido un millón de hipotecas. Cada hipoteca está asignada a uno de 10 niveles de riesgo distinto (A1 el menos arriesgado, A10 "subprime"). Pasa un mes y se recalculan los niveles de cada una de las hipotecas. Algunas ya se han cancelado, hay hipotecas nuevas, etc. Tanto el banco en cuestión como el regulador (Banco de España, en mi caso particular) están interesados en detectar si hay "desviaciones poblacionales significativas". Si se detecta una "desviación poblacional significativa" se generan una serie de alarmas, hay que replantear  modelos, hay que notificar al regulador, etc. Para detectar estas "desviaciones poblacionales significativas" se plantean distintos tests. Uno de ellos (utilizado por algunos bancos, sugerido también en el documento regulatorio que he apuntado antes) es el de la chi-cuadrado. Problema: que la población subyacente es tan grande que los p-valores obtenidos con fluctuaciones "mÃnimas" son alarmantes, del tipo 0.000000000000000000000021233. Y eso aun cuando los histogramas, a simple vista, son casi idénticos. Claro, es difÃcil justificar que con histogramas casi idénticos, con conteos de frecuencias muy similares, haya que decir: "según el p-valor obtenido por el test de la chi-cuadrado, Vd. tiene que replantearse la homogeneidad de su población". Simplemente creo que en este contexto, a pesar de que se utilice el test de la chi-cuadrado y que incluso se recomiende desde "altas esferas", es necesario plantearse una alternativa. De ahà que haya escrito a la lista: no sé si en estudios demográficos, de poblaciones de especies en ecosistemas, en disciplinas donde se manejen frecuencias elevadas, se utilizan medidas de "homogeneidad poblacional" distintas de la de la chi-cuadrado. Entiendo que, en última instancia, deberÃa ser el banco (o el regulador) el que determinase cómo de grande deberÃa ser la desviación que tuviese que generar una alarma (y eso no lo decido yo). Pero me gustarÃa ser capaz de proponer una medida alternativa al estadÃstico que da lugar al test de la chi-cuadrado que, como propiedad deseable, no dependiese de n (el tamaño muestral)... No sé si esto aclara las cosas o consigue el efecto contrario... Un saludo, Carlos J. Gil Bellosta
_______________________________________________ R-help-es mailing list R-help-es en r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Ramon Diaz-Uriarte Structural Biology and Biocomputing Programme Spanish National Cancer Centre (CNIO) http://ligarto.org/rdiaz Phone: +34-91-732-8000 ext. 3019