Skip to content

[R-es] Leer parquet files desde R

6 messages · José Luis Cañadas, Carlos Ortega

#
Buenas a todos.
Ya sé que con sparkR o sparklyr puedo leer fácilmente ficheros con formato
parquet, pero ¿hay alguna forma de leerlos sin tener que arrancar spark?

Mi situación es que tengo unos ficheros en formato parquet en s3 y quiero
leerlos desde una instancia pequeñita de amazon EC2 que quiero mantener sin
instalarle spark.

Estoy bicheando la librería https://github.com/cloudyr/aws.s3 y va bien,
pero no encuentro como leer ficheros parquet.

Un saludo
#
Hola José Luis,

¿Has probado directamente con "dplyr"?...

spark_read_parquet
<https://spark.rstudio.com/reference/sparklyr/latest/spark_read_json.html>

Saludos,
Carlos Ortega
www.qualityexcellence.es


El 4 de octubre de 2017, 21:33, José Luis Cañadas <canadasreche en gmail.com>
escribió:

  
    
#
Hola Carlos.

spark_read_parquet es de sparklyr y necesita un sparkcontext inicializado
para leer el fichero de parquet.

El mié., 4 oct. 2017 22:11, Carlos Ortega <cof en qualityexcellence.es>
escribió:

  
  
#
Sí, disculpa no había visto que estaba en la página de sparklyr...
¿Y esto?...

https://github.com/hrbrmstr/sergeant

Pasas a depender de Drill...



El 4 de octubre de 2017, 22:28, José Luis Cañadas <canadasreche en gmail.com>
escribió:

  
    
#
Acabo de recordar que con "h2o.importFile()" también puedes importar
ficheros en parquet...

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/getting-data-into-h2o.html#supported-file-formats


El 4 de octubre de 2017, 23:02, Carlos Ortega <cof en qualityexcellence.es>
escribió:

  
    
#
Uhmm. Probaré.
Pero la idea era dejar una instancia en Amazon EC2 con lo mínimo instalado,
sería una máquina pequeña a la q con shinyproxy le voy enganchando dockers
de aplicaciones shiny, pero los datos de los que tiran están en s3.
Otra idea sería guardar esos datos en s3 pero en formato rds y leerlos
usando la librería de aws.s3

Gracias por la información Carlos.

El jue., 5 oct. 2017 0:19, Carlos Ortega <cof en qualityexcellence.es>
escribió: