Prev 15028 / 15379 Next

[R-es] Error: protect(): protection stack overflow

Juan Abasolo

Tue, May 30, 2023 10:49 AM

QuÃ© lindo participar desde la ventana de tu descubrimiento.

Te deseo que tengÃ¡s un buen camino llevÃ¡ndolo adelante, por el bien de
tantos.

Hau idatzi du Manuel Mendoza (mmendoza en fulbrightmail.org) erabiltzaileak
(2023 mai. 29(a), al. (11:19)):

Gracias Carlos e Isidro, finalmente utilicÃ© el propio XgBoost para
seleccionar las variables con las que hacer el RF. HabÃa 47, de las casi
55.000, que mostraban una ganancia superior que el resto, asÃ que hice el
RF con esas sin problema. La idea original era aplicar RF para seleccionar
las variables mÃ¡s importantes por su contribuciÃ³n a la predicciÃ³n,
utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas
47. ResultÃ³ que con tan solo 5 genes puedo predecir la malignidad de
tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo
interesante.
Gracias de nuevo,
Manuel

El dom, 28 may 2023 a las 21:58, Carlos Ortega (<cof en qualityexcellence.es

escribiÃ³:

Hola Manuel,

"ranger" paraleliza de forma automÃ¡tica, usando todos los cores que
tienes. EstÃ¡ bastante optimizado...

El que se quede sin memoria, puede tener que ver, tanto por el nÃºmero de
columnas que comentas, como que alguna de tus variables (o varias) si es
categÃ³rica y tiene mÃºltiples niveles esas 54973 columnas pueden aumentar
mucho ("ranger" hace un one-hot interno).

Y si el problema son las columnas. Â¿Tienes que usar todas las columnas?.
Puedes plantearte alguna alternativa para seleccionar las variables
importantes. El paquete "Boruta" es uno de ellos, pero tambiÃ©n puedes

hacer

diferentes modelos en modo "boostrap" seleccionado diferentes columnas

para

ver con cuÃ¡les quedarte al final.

Y otra alternativa cuando tienes problemas de memoria, es usar H2O....
Gestiona muy bien la memoria.

Gracias,
Carlos.

El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
mmendoza en fulbrightmail.org>) escribiÃ³:

Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
columnas y me quedo sin memoria. He probado con randomForest y con

ranger,

y con los dos pasa. Â¿TenÃ©is alguna soluciÃ³n para esto (que no sea
comprarse
un ordenador mÃ¡s potente:-) ?. Pude aplicar XgBoost, incluso cerca de

veces  (unas 16 horas), para optimizar los hiperparÃ¡metros con una

rejilla

de bÃºsqueda, pero XgBoost utiliza varios nÃºcleos a la vez. No sÃ© si hay
forma de hacer que randomForest o ranger utilicen mÃ¡s nÃºcleos. Cualquier
otra soluciÃ³n serÃa buena, claro.
Gracias,
Manuel

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Juan Abasolo, PhD

Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
Bilboko Hezkuntza Fakultatea
Euskal Herriko Unibertsitatea UPV/EHU

Sarriena auzoa z/g 48940 - Leioa (Bizkaia)

T       : (+34) 94 601 7567
Telegram: @JuanAbasolo
Skype   : abasolo72
Bloga   : juanabasolo.netlify.com

	[[alternative HTML version deleted]]

Thread (3 messages)

Manuel Mendoza Error: protect(): protection stack overflow May 29 Juan Abasolo Error: protect(): protection stack overflow May 30 Javier Marcuzzi Error: protect(): protection stack overflow May 30