[R-es] Optimizar paste0()?

9 messages · Jorge I Velez, Javier Marcuzzi, Carlos Ortega +1 more

Original

1

9

Tue, Dec 9, 2014 4:46 AM #

Hola a todos,

Me gustaria construir un vector a partir de otros dos.

Ejemplo:

x <- 1:3
y <- 4:6
d <- data.frame(x, y)
d$z <- with(d, paste0(x, ":", y, "-ABC"))
d

El problema es "d" tiene ~70 millones de filas y toma mucho tiempo
construir el vector "z".
Alguna sugerencia?

Muchas gracias,
Jorge Velez

Javier Marcuzzi

Tue, Dec 9, 2014 4:50 AM #

Estimado Jorge Velez

Â¿Que pasa si usa sqldf que trabaja con sqlite o alguna conecciÃ³n a base 
de datos y realiza una concateneciÃ³n en sql?

Javier Marcuzzi

El 09/12/2014 a las 09:46 a.m., Jorge I Velez escibiÃ³:

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Tue, Dec 9, 2014 4:55 AM #

Gracias, Javier.

Los datos "d" corresponden un archivo de texto de ~1.92GB.   Voy a explorar
la posibilidad con sqldf, aunque confieso que mi conocimiento de SQL es
bastante limitado.

Saludos cordiales,
Jorge.-


2014-12-09 23:50 GMT+11:00 "Marcuzzi, Javier RubÃ©n" <
javier.ruben.marcuzzi en gmail.com>:

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Javier Marcuzzi

Tue, Dec 9, 2014 5:12 AM #

Es semejante

library(sqldf)
x <- 1:3
y <- 4:6
d <- data.frame(x, y)
d$z <- with(d, paste0(x, ":", y, "-ABC"))
d

sqldf("select x, y, x || ':' || y || '-ABC' from d")


El 09/12/2014 a las 09:55 a.m., Jorge I Velez escibiÃ³:

        _______________________________________________
        R-help-es mailing list
        R-help-es en r-project.org <mailto:R-help-es en r-project.org>
        https://stat.ethz.ch/mailman/listinfo/r-help-es


    _______________________________________________
    R-help-es mailing list
    R-help-es en r-project.org <mailto:R-help-es en r-project.org>
    https://stat.ethz.ch/mailman/listinfo/r-help-es

Javier Marcuzzi

Tue, Dec 9, 2014 5:13 AM #

Mejor
sqldf("select x, y, x || ':' || y || '-ABC' as z from d")

El 09/12/2014 a las 09:55 a.m., Jorge I Velez escibiÃ³:

        _______________________________________________
        R-help-es mailing list
        R-help-es en r-project.org <mailto:R-help-es en r-project.org>
        https://stat.ethz.ch/mailman/listinfo/r-help-es


    _______________________________________________
    R-help-es mailing list
    R-help-es en r-project.org <mailto:R-help-es en r-project.org>
    https://stat.ethz.ch/mailman/listinfo/r-help-es

Tue, Dec 9, 2014 7:35 AM #

Hola,

Otra forma, quizÃ¡s algo mÃ¡s rÃ¡pida, especialmente para unos conjuntos tan
grandes, que la de sqldf es "data.table":

library(data.table)
x <- 1:3
y <- 4:6
d <- data.table(x, y)
d[,z := paste(x,"-",y,sep="")]

x y   z
1: 1 4 1-4
2: 2 5 2-5
3: 3 6 3-6

Y bueno, "dplyr" tambiÃ©n es otra opciÃ³n muy rÃ¡pida...
TambiÃ©n, y recuerdo que hace tiempo tambiÃ©n lo llegamos a hablar, existe la
posibilidad de juntar las dos variables por fuera ejecutando un comando en
la shell del Sistema Operativo (supongo que es Uniux/Linux)con "system()".

Saludos,
Carlos Ortega
www.qualityexcellence.es

Saludos,
Carlos Ortega


El 9 de diciembre de 2014, 14:13, "Marcuzzi, Javier RubÃ©n" <
javier.ruben.marcuzzi en gmail.com> escribiÃ³:

        _______________________________________________
        R-help-es mailing list
        R-help-es en r-project.org <mailto:R-help-es en r-project.org>
        https://stat.ethz.ch/mailman/listinfo/r-help-es


    _______________________________________________
    R-help-es mailing list
    R-help-es en r-project.org <mailto:R-help-es en r-project.org>
    https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]

Javier Marcuzzi

Tue, Dec 9, 2014 8:12 AM #

Jorge

Creo que la opciÃ³n de Carlos Ortega es mejor, si no recuerdo mal una vez 
vi una demostraciÃ³n sobre bigdata en la cual data.table tenÃa una 
performance que sorprendÃa sobre otras alternativas.

Javier Marcuzzi


El 09/12/2014 a las 12:35 p.m., Carlos Ortega escibiÃ³:

Hola,

Otra forma, quizÃ¡s algo mÃ¡s rÃ¡pida, especialmente para unos conjuntos 
tan grandes, que la de sqldf es "data.table":

library(data.table)
x <- 1:3
y <- 4:6
d <- data.table(x, y)
d[,z := paste(x,"-",y,sep="")]

   x y   z
1: 1 4 1-4
2: 2 5 2-5
3: 3 6 3-6

Y bueno, "dplyr" tambiÃ©n es otra opciÃ³n muy rÃ¡pida...
TambiÃ©n, y recuerdo que hace tiempo tambiÃ©n lo llegamos a hablar, 
existe la posibilidad de juntar las dos variables por fuera ejecutando 
un comando en la shell del Sistema Operativo (supongo que es 
Uniux/Linux)con "system()".

Saludos,
Carlos Ortega
www.qualityexcellence.es <http://www.qualityexcellence.es>

Saludos,
Carlos Ortega


El 9 de diciembre de 2014, 14:13, "Marcuzzi, Javier RubÃ©n" 
<javier.ruben.marcuzzi en gmail.com 
<mailto:javier.ruben.marcuzzi en gmail.com>> escribiÃ³:

    Mejor
    sqldf("select x, y, x || ':' || y || '-ABC' as z from d")

    El 09/12/2014 a las 09:55 a.m., Jorge I Velez escibiÃ³:

    > Gracias, Javier.
    >
    > Los datos "d" corresponden un archivo de texto de ~1.92GB.   Voy a
    > explorar la posibilidad con sqldf, aunque confieso que mi

    conocimiento

    > de SQL es bastante limitado.
    >
    > Saludos cordiales,
    > Jorge.-
    >
    >
    > 2014-12-09 23:50 GMT+11:00 "Marcuzzi, Javier RubÃ©n"
    > <javier.ruben.marcuzzi en gmail.com

    <mailto:javier.ruben.marcuzzi en gmail.com>

    > <mailto:javier.ruben.marcuzzi en gmail.com

    <mailto:javier.ruben.marcuzzi en gmail.com>>>:

    >
    >     Estimado Jorge Velez
    >
    >     Â¿Que pasa si usa sqldf que trabaja con sqlite o alguna

    conecciÃ³n a

    >     base de datos y realiza una concateneciÃ³n en sql?
    >
    >     Javier Marcuzzi
    >
    >     El 09/12/2014 a las 09:46 a.m., Jorge I Velez escibiÃ³:
    >
    >         Hola a todos,
    >
    >         Me gustaria construir un vector a partir de otros dos.
    >
    >         Ejemplo:
    >
    >         x <- 1:3
    >         y <- 4:6
    >         d <- data.frame(x, y)
    >         d$z <- with(d, paste0(x, ":", y, "-ABC"))
    >         d
    >
    >         El problema es "d" tiene ~70 millones de filas y toma

    mucho tiempo

    >         construir el vector "z".
    >         Alguna sugerencia?
    >
    >         Muchas gracias,
    >         Jorge Velez
    >
    >                 [[alternative HTML version deleted]]
    >
    >  _______________________________________________
    >         R-help-es mailing list
    > R-help-es en r-project.org <mailto:R-help-es en r-project.org>

    <mailto:R-help-es en r-project.org <mailto:R-help-es en r-project.org>>

    >https://stat.ethz.ch/mailman/listinfo/r-help-es
    >
    >
    >     _______________________________________________
    >     R-help-es mailing list
    > R-help-es en r-project.org <mailto:R-help-es en r-project.org>

    <mailto:R-help-es en r-project.org <mailto:R-help-es en r-project.org>>

    > https://stat.ethz.ch/mailman/listinfo/r-help-es
    >
    >


            [[alternative HTML version deleted]]

    _______________________________________________
    R-help-es mailing list
    R-help-es en r-project.org <mailto:R-help-es en r-project.org>
    https://stat.ethz.ch/mailman/listinfo/r-help-es




-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es <http://www.qualityexcellence.es>

Carlos J. Gil Bellosta

Tue, Dec 9, 2014 8:31 AM #

Hola, Â¿quÃ© tal?

Algunos nÃºmeros:

user  system elapsed
 17.289   0.264  17.552

user  system elapsed
 48.875   0.632  49.506

user  system elapsed
 48.255   0.588  48.842

Por debajo del minuto. Pero con 24GB de RAM, que es, dirÃa, el factor
limitante. De hecho,

560124840 bytes

que es alrededor de medio GB.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com



El dÃa 9 de diciembre de 2014, 17:12, "Marcuzzi, Javier RubÃ©n"
<javier.ruben.marcuzzi en gmail.com> escribiÃ³:

Jorge

Creo que la opciÃ³n de Carlos Ortega es mejor, si no recuerdo mal una vez
vi una demostraciÃ³n sobre bigdata en la cual data.table tenÃa una
performance que sorprendÃa sobre otras alternativas.

Javier Marcuzzi


El 09/12/2014 a las 12:35 p.m., Carlos Ortega escibiÃ³:

Hola,

Otra forma, quizÃ¡s algo mÃ¡s rÃ¡pida, especialmente para unos conjuntos
tan grandes, que la de sqldf es "data.table":

library(data.table)
x <- 1:3
y <- 4:6
d <- data.table(x, y)
d[,z := paste(x,"-",y,sep="")]

   x y   z
1: 1 4 1-4
2: 2 5 2-5
3: 3 6 3-6

Y bueno, "dplyr" tambiÃ©n es otra opciÃ³n muy rÃ¡pida...
TambiÃ©n, y recuerdo que hace tiempo tambiÃ©n lo llegamos a hablar,
existe la posibilidad de juntar las dos variables por fuera ejecutando
un comando en la shell del Sistema Operativo (supongo que es
Uniux/Linux)con "system()".

Saludos,
Carlos Ortega
www.qualityexcellence.es <http://www.qualityexcellence.es>

Saludos,
Carlos Ortega


El 9 de diciembre de 2014, 14:13, "Marcuzzi, Javier RubÃ©n"
<javier.ruben.marcuzzi en gmail.com
<mailto:javier.ruben.marcuzzi en gmail.com>> escribiÃ³:

    Mejor
    sqldf("select x, y, x || ':' || y || '-ABC' as z from d")

    El 09/12/2014 a las 09:55 a.m., Jorge I Velez escibiÃ³:

    > Gracias, Javier.
    >
    > Los datos "d" corresponden un archivo de texto de ~1.92GB.   Voy a
    > explorar la posibilidad con sqldf, aunque confieso que mi

    conocimiento

    > de SQL es bastante limitado.
    >
    > Saludos cordiales,
    > Jorge.-
    >
    >
    > 2014-12-09 23:50 GMT+11:00 "Marcuzzi, Javier RubÃ©n"
    > <javier.ruben.marcuzzi en gmail.com

    <mailto:javier.ruben.marcuzzi en gmail.com>

    > <mailto:javier.ruben.marcuzzi en gmail.com

    <mailto:javier.ruben.marcuzzi en gmail.com>>>:

    >
    >     Estimado Jorge Velez
    >
    >     Â¿Que pasa si usa sqldf que trabaja con sqlite o alguna

    conecciÃ³n a

    >     base de datos y realiza una concateneciÃ³n en sql?
    >
    >     Javier Marcuzzi
    >
    >     El 09/12/2014 a las 09:46 a.m., Jorge I Velez escibiÃ³:
    >
    >         Hola a todos,
    >
    >         Me gustaria construir un vector a partir de otros dos.
    >
    >         Ejemplo:
    >
    >         x <- 1:3
    >         y <- 4:6
    >         d <- data.frame(x, y)
    >         d$z <- with(d, paste0(x, ":", y, "-ABC"))
    >         d
    >
    >         El problema es "d" tiene ~70 millones de filas y toma

    mucho tiempo

    >         construir el vector "z".
    >         Alguna sugerencia?
    >
    >         Muchas gracias,
    >         Jorge Velez
    >
    >                 [[alternative HTML version deleted]]
    >
    >  _______________________________________________
    >         R-help-es mailing list
    > R-help-es en r-project.org <mailto:R-help-es en r-project.org>

    <mailto:R-help-es en r-project.org <mailto:R-help-es en r-project.org>>

    >https://stat.ethz.ch/mailman/listinfo/r-help-es
    >
    >
    >     _______________________________________________
    >     R-help-es mailing list
    > R-help-es en r-project.org <mailto:R-help-es en r-project.org>

    <mailto:R-help-es en r-project.org <mailto:R-help-es en r-project.org>>

    > https://stat.ethz.ch/mailman/listinfo/r-help-es
    >
    >


            [[alternative HTML version deleted]]

    _______________________________________________
    R-help-es mailing list
    R-help-es en r-project.org <mailto:R-help-es en r-project.org>
    https://stat.ethz.ch/mailman/listinfo/r-help-es




--
Saludos,
Carlos Ortega
www.qualityexcellence.es <http://www.qualityexcellence.es>

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Tue, Dec 9, 2014 3:00 PM #

Muchas gracias a todos por las sugerencias.  Finalmente reinicie la maquina
y pude ejecutar el ejemplo de Carlos Gil en un tiempo "equivalente":

R> a <- sample(letters, 70e6, replace = T)
R> b <- sample(letters, 70e6, replace = T)
R> system.time(a.b <- paste0(a, ":", b, "-SNV"))
   user  system elapsed
 23.255   0.150  23.423
R> b <- sample(1:100, 70e6, replace = T)
R> system.time(a.b <- paste0(a, ":", b, "-SNV"))
   user  system elapsed
 38.226   0.291  38.549

En cuanto a mi "problema", con la ayuda de alguien aqui en la escuela
terminamos utilizando

JCSMR022175:~ velezjo$  grep -E '\trs\d+\t' input.txt | perl -lne '@a =
split("\t", $_); $a[3] =~ s/-//g; @b = split(/\//,$a[3]); print
"$a[2]\t$a[0]:$a[1]-SNV\t$b[0]\t".join("/", @b[1..$#b]);' > output.txt

Saludos cordiales,
Jorge.-



2014-12-10 2:35 GMT+11:00 Carlos Ortega <cof en qualityexcellence.es>:

Hola,

Otra forma, quizÃ¡s algo mÃ¡s rÃ¡pida, especialmente para unos conjuntos tan
grandes, que la de sqldf es "data.table":

library(data.table)
x <- 1:3
y <- 4:6
d <- data.table(x, y)
d[,z := paste(x,"-",y,sep="")]

   x y   z
1: 1 4 1-4
2: 2 5 2-5
3: 3 6 3-6

Y bueno, "dplyr" tambiÃ©n es otra opciÃ³n muy rÃ¡pida...
TambiÃ©n, y recuerdo que hace tiempo tambiÃ©n lo llegamos a hablar, existe
la posibilidad de juntar las dos variables por fuera ejecutando un comando
en la shell del Sistema Operativo (supongo que es Uniux/Linux)con
"system()".

Saludos,
Carlos Ortega
www.qualityexcellence.es

Saludos,
Carlos Ortega


El 9 de diciembre de 2014, 14:13, "Marcuzzi, Javier RubÃ©n" <
javier.ruben.marcuzzi en gmail.com> escribiÃ³:

Mejor
sqldf("select x, y, x || ':' || y || '-ABC' as z from d")

El 09/12/2014 a las 09:55 a.m., Jorge I Velez escibiÃ³:

Gracias, Javier.

Los datos "d" corresponden un archivo de texto de ~1.92GB.   Voy a
explorar la posibilidad con sqldf, aunque confieso que mi conocimiento
de SQL es bastante limitado.

Saludos cordiales,
Jorge.-


2014-12-09 23:50 GMT+11:00 "Marcuzzi, Javier RubÃ©n"
<javier.ruben.marcuzzi en gmail.com
<mailto:javier.ruben.marcuzzi en gmail.com>>:

    Estimado Jorge Velez

    Â¿Que pasa si usa sqldf que trabaja con sqlite o alguna conecciÃ³n a
    base de datos y realiza una concateneciÃ³n en sql?

    Javier Marcuzzi

    El 09/12/2014 a las 09:46 a.m., Jorge I Velez escibiÃ³:

        Hola a todos,

        Me gustaria construir un vector a partir de otros dos.

        Ejemplo:

        x <- 1:3
        y <- 4:6
        d <- data.frame(x, y)
        d$z <- with(d, paste0(x, ":", y, "-ABC"))
        d

        El problema es "d" tiene ~70 millones de filas y toma mucho

tiempo

        construir el vector "z".
        Alguna sugerencia?

        Muchas gracias,
        Jorge Velez

                [[alternative HTML version deleted]]

        _______________________________________________
        R-help-es mailing list
        R-help-es en r-project.org <mailto:R-help-es en r-project.org>
        https://stat.ethz.ch/mailman/listinfo/r-help-es


    _______________________________________________
    R-help-es mailing list
    R-help-es en r-project.org <mailto:R-help-es en r-project.org>
    https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es