Skip to content

[R-es] Tibble o data.table?

9 messages · Carlos Ortega, Freddy López, Jesús Para Fernández +1 more

#
Buenas

Os queria preguntar que ventaja le veis a las tibbles frente a los data.table, ya que para mi, quitando el uso de librerias como tidyr o purrr, en el resto prefiero usar data.table. Me parece igual de potente y mucho más rápido, y no le veo las supuestas ventajas, pero quiero conocer vuestra opinion.

Gracias
Jesús
#
Hola,

Si te mueves en el "tidyverse" y te gustan los "pipes", realmente no te
queda otra opción que usar los tibbles.

La sintaxis de data.table es un tanto compleja frente a la sencillez que
ofrece el trabajar con pipelines y para conjuntos medianos, no hay tanta
diferencia en rendimiento.
Por otro lado, son cada vez más los paquetes que se quieren hacer
compatibles con este esquema "tidyverse" ("tidytext", "tidyquant", hasta el
mismo "sparklyr").

Gracias,
Carlos Ortega
www.qualityexcellence.es

El 22 de noviembre de 2017, 10:39, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

  
    
#
Tienes razon de que hay una serie de paquetes que lo usan, pero me da que vienen impulsados por Rstudio desde el paquete tidyverse...

Yo me resisto a usarlo. Me parece que queda mas limpio, pero no se porque no le pillo la gracia...Quizas sea el apoyo de Rstudio lo que me tire para atras...
#
El mié, 22-11-2017 a las 20:51 +0000, Jesús Para Fernández escribió:
No estás solo en el mundo: si bien muchas cosas facilitan la vida
utilizando elementos de tidyverse, en su conjunto, yo no lo compro,
tampoco. Son como un dialecto en el idioma R.
¡Salud!
#
Yo la ventaja que le veo a tibble y demás cosas del mundo tidy es la
conexión a fuentes externas , como postgres,spark, presto y usar dplyr como
front.


El mié., 22 nov. 2017 21:51, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

  
  
#
Que es postgres y presto?? Se uqe google tiene la respuesta,....
#
Te pongo enlace de Presto. De postgress hay muchas referencias.
https://aws.amazon.com/es/emr/details/presto/

Y para Presto existe Rpresto, que permite usar DBI sobre Presto.
Básicamente, permite ver tablas hive en R y hacer sql muy rápidas sobre
grandes volúmenes de datos, sin tener que levantar un spark.

El mié., 22 nov. 2017 22:07, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

  
  
#
Muchisimas gracias ?
#
PostgresSQL (es una base de datos relacional opensource)
Y Presto es un motor de base de datos distribuida que se entiende con Hive,
Cassandra, etc..

Vaya, lo que quería aportar es otra idea.
Leía hace poco en este blog:

http://winvector.github.io/FluidData/DataWranglingAtScale.html

*"R its is packages"*

Que me parece una de las mejores definiciones a la tradicional de "entorno
y lenguaje para análisis de datos"...
data.table es en sí otro "lenguaje" dentro de "R", su creador ahora está en
H2O que también lo han integrado en la lectura de ficheros.

No veo mucho problema en que RStudio apoye todo el "tidyverse", casi al
contrario es una forma de garantizar consistencia entre toda su sintaxis
con la que puedes hacer gran parte de las actividades que requiere un
proceso de análisis. Y esto que con "dplyr" puedas conectarte a casi
cualquier fuente de datos (ahora tiene conectores empresariales para las
bases de datos BigData: Hive, Impala, ...) es una gran ventaja. O todo lo
que están haciendo con "sparklyr", o más recientemente con "keras" y
"tensorflow". Y con el fichaje de Max Kuhn, y su paquete "recipes", "caret"
también formará parte del ecosistema "tidy".


Saludos,
Carlos Ortega
www.qualityexcellence.es


El 22 de noviembre de 2017, 22:07, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió: