http://go.cloudera.com/ml-h20-es-webinar?src=email1&elqTrackId=
af5517eab2f543afbb31a0686d9ca566&elq=c68d9a8c25ba4b12944b8065d8a06e
33&elqaid=4541&elqat=1&elqCampaignId=
El 22 de junio de 2017, 22:59, Carlos Ortega <cof en qualityexcellence.es>
escribió:
Hola,
Tendrás RStudioServer en un nodo frontera de tu clúster. Y cuando lees
algo te lo estás llevando a este nodo frontera que tiene que tener memoria
suficiente para poder leer el fichero que quieres. El que digas que tienes
256Gb, entiendo que es repartidos en todo el clúster y no en ese nodo
frontera.
La forma de trabajar no es esta. La idea es que proceses tus datos de
forma distribuida, desde el nodo frontera diriges/distribuyes el trabajo a
todos los nodos. Una forma que el propio Cloudera recomienda para este tipo
de procesamiento analÃtico es usar H2O. Con H2O al leer el fichero haces
una lectura distribuida, al igual que si realizas cualquier tipo de
análisis (modelización) lo haces de forma distribuida (en todos tus nodos).
Otra alternativa que también recomienda Cloudera es utilizar RStudio con
"sparklyr" y realizar el procesamiento en Spark. Mira el detalles en la
página que tiene RStudio de este paquete (que están desarrollando ellos
mismos).
Si tus datos no son "enormes" puedes perfectamente probar a trabajar
sobre una máquina con mucha RAM y te ahorras todas estas complicaciones.
Saludos,
Carlos Ortega
www.qualityexcellence.es
El 22 de junio de 2017, 21:33, Ursula Jacobo Arteaga via R-help-es <
r-help-es en r-project.org> escribió:
hola, estoy trabajando en cloudera con RStudio server y constantemente
"muere" R por el tamaño de los archivos que lee. Supuestamente tengo 256gb
de memoria pero con archivos de 42gb muere con sólo leerlos,Amguien tiene
una idea de cómo trabajar con este volumen de info?saludos y gracias
[[alternative HTML version deleted]]