Hola Manuel,
"ranger" paraleliza de forma automática, usando todos los cores que
tienes. Está bastante optimizado...
El que se quede sin memoria, puede tener que ver, tanto por el número de
columnas que comentas, como que alguna de tus variables (o varias) si es
categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar
mucho ("ranger" hace un one-hot interno).
Y si el problema son las columnas. ¿Tienes que usar todas las columnas?.
Puedes plantearte alguna alternativa para seleccionar las variables
importantes. El paquete "Boruta" es uno de ellos, pero también puedes hacer
diferentes modelos en modo "boostrap" seleccionado diferentes columnas para
ver con cuáles quedarte al final.
Y otra alternativa cuando tienes problemas de memoria, es usar H2O....
Gestiona muy bien la memoria.
Gracias,
Carlos.
El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
mmendoza en fulbrightmail.org>) escribió:
Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
columnas y me quedo sin memoria. He probado con randomForest y con ranger,
y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea
comprarse
un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000
veces (unas 16 horas), para optimizar los hiperparámetros con una rejilla
de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
otra solución serÃa buena, claro.
Gracias,
Manuel
[[alternative HTML version deleted]]