[R-es] La ejecución de mi script R es muy lenta

En el correo anterior se me olvidÃ³ mencionar que trabajo con Rstudio

El 28 de mayo de 2015, 15:18, MÂªLuz Morales <mlzmrls en gmail.com> escribiÃ³:
Hola,
soy nueva en esta lista y tambiÃ©n en R. Yo he realizado un  script en R
que  carga dos archivos csv, uno de ellos con casi 2 millones de filas. El
programa carga esos archivos a data frame, y se trata simplemente de
seleccionar ciertos datos, hacer alguna operaciÃ³n (media, minimo, mÃ¡ximo)
y  presentarlos en una tabla que tendrÃ¡ 4000 filas. La ejecuciÃ³n de este
programa ha tardado casi 3 horas!!!!, podÃ©is decirme si R es lento en esta
operaciÃ³n o es que mi cÃ³digo no estÃ¡ optimizado y no estoy haciÃ©ndolo de la
forma correcta.
El cÃ³digo de mi programa es el siguiente:

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## Set-A.csv y Outcomes.csv deben estar en el directorio actual
#  Transforma csv a data frame
seta <- read.csv('Set-A.csv');
outcomes <- read.csv('Outcomes-A.csv');

ids <- as.character(unique(outcomes$RecordID));
## NÃºmero de RecordsID distintos
Length_ids <- length(ids); #nÃºmero de RecordsID distintos
ListaABP <- list('RecordID'=-1,'SAPS.I'=-1, 'SOFA'=-1, 'Survival'=-1,
'In.hospital_death'=-1, 'NISysABP_Min'=-1,'NISysABP_Max'=-1,
'NISysABP_Mean'=-1, 'NIDiasABP_Min'=-1,'NIDiasABP_Max'=-1,
'NIDiasABP_Mean'=-1,'NIMAP_Min'=-1,'NIMAP_Max'=-1, 'NIMAP_Mean'=-1);
for (i in 1:Length_ids){#NumRecordID){   # Para cada paciente...

  ListaABP$RecordID[i] <- outcomes$RecordID[i];
  ListaABP$SAPS.I[i] <- outcomes$SAPS.I[i];
  ListaABP$SOFA[i] <- outcomes$SOFA[i];
  ListaABP$Survival[i] <- outcomes$Survival[i];
  ListaABP$In.hospital_death[i] <- outcomes$In.hospital_death[i];

  # Parameter == 'NISysBP'
  #seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , c('RecordID','Value')] ;
  seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , 'Value'] ; #Creo que esto ya no serÃa un dataframe, por lo que
en la siguiente lÃnea puede dar error
  ListaABP$NISysABP_Min[i] <- min(seta_NISysABP);
  ListaABP$NISysABP_Max[i] <- max(seta_NISysABP);
  ListaABP$NISysABP_Mean[i] <- mean(seta_NISysABP);

  # Parameter == 'NIDiasABP'
  #seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , c('Time','Value')] ; #En este caso la forma de hacer el min
serÃa ...min(seta_NIDiasABP$Value);
  seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , 'Value'] ;
  ListaABP$NIDiasABP_Min[i] <- min(seta_NIDiasABP);
  ListaABP$NIDiasABP_Max[i] <- max(seta_NIDiasABP);
  ListaABP$NIDiasABP_Mean[i] <- mean(seta_NIDiasABP);

  # Parameter == 'NIMAP'
  #seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter == 'NIMAP'
, c('Time','Value')] ;
  seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter == 'NIMAP' ,
'Value'] ;
  ListaABP$NIMAP_Min[i] <- min(seta_NIMAP);
  ListaABP$NIMAP_Max[i] <- max(seta_NIMAP);
  ListaABP$NIMAP_Mean[i] <- mean(seta_NIMAP);

}#for i

Tabla <- data.frame(ListaABP);

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Gracias de antemano
Un saludo
MÂªLuz

Estimada MarÃa Luz Morales

Puedes intentar con data.table y reemplazar for por algina otra opciÃ³n vectorizada, aunque en R moderno esto mejorÃ³, y la posibilidad de compile deberÃa ser evaluada.

Javier RubÃ©n Marcuzzi
TÃ©cnico en Industrias LÃ¡cteas
Veterinario

De: MÂªLuz Morales
Enviado el: ?jueves?, ?28? de ?mayo? de ?2015 ?10?:?21? ?a.m.
Para: R-help-es en r-project.org

En el correo anterior se me olvidÃ³ mencionar que trabajo con Rstudio

El 28 de mayo de 2015, 15:18, MÂªLuz Morales <mlzmrls en gmail.com> escribiÃ³:
Hola,
soy nueva en esta lista y tambiÃ©n en R. Yo he realizado un  script en R
que  carga dos archivos csv, uno de ellos con casi 2 millones de filas. El
programa carga esos archivos a data frame, y se trata simplemente de
seleccionar ciertos datos, hacer alguna operaciÃ³n (media, minimo, mÃ¡ximo)
y  presentarlos en una tabla que tendrÃ¡ 4000 filas. La ejecuciÃ³n de este
programa ha tardado casi 3 horas!!!!, podÃ©is decirme si R es lento en esta
operaciÃ³n o es que mi cÃ³digo no estÃ¡ optimizado y no estoy haciÃ©ndolo de la
forma correcta.
El cÃ³digo de mi programa es el siguiente:

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## Set-A.csv y Outcomes.csv deben estar en el directorio actual
#  Transforma csv a data frame
seta <- read.csv('Set-A.csv');
outcomes <- read.csv('Outcomes-A.csv');

ids <- as.character(unique(outcomes$RecordID));
## NÃºmero de RecordsID distintos
Length_ids <- length(ids); #nÃºmero de RecordsID distintos
ListaABP <- list('RecordID'=-1,'SAPS.I'=-1, 'SOFA'=-1, 'Survival'=-1,
'In.hospital_death'=-1, 'NISysABP_Min'=-1,'NISysABP_Max'=-1,
'NISysABP_Mean'=-1, 'NIDiasABP_Min'=-1,'NIDiasABP_Max'=-1,
'NIDiasABP_Mean'=-1,'NIMAP_Min'=-1,'NIMAP_Max'=-1, 'NIMAP_Mean'=-1);
for (i in 1:Length_ids){#NumRecordID){   # Para cada paciente...

  ListaABP$RecordID[i] <- outcomes$RecordID[i];
  ListaABP$SAPS.I[i] <- outcomes$SAPS.I[i];
  ListaABP$SOFA[i] <- outcomes$SOFA[i];
  ListaABP$Survival[i] <- outcomes$Survival[i];
  ListaABP$In.hospital_death[i] <- outcomes$In.hospital_death[i];

  # Parameter == 'NISysBP'
  #seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , c('RecordID','Value')] ;
  seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , 'Value'] ; #Creo que esto ya no serÃa un dataframe, por lo que
en la siguiente lÃnea puede dar error
  ListaABP$NISysABP_Min[i] <- min(seta_NISysABP);
  ListaABP$NISysABP_Max[i] <- max(seta_NISysABP);
  ListaABP$NISysABP_Mean[i] <- mean(seta_NISysABP);

  # Parameter == 'NIDiasABP'
  #seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , c('Time','Value')] ; #En este caso la forma de hacer el min
serÃa ...min(seta_NIDiasABP$Value);
  seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , 'Value'] ;
  ListaABP$NIDiasABP_Min[i] <- min(seta_NIDiasABP);
  ListaABP$NIDiasABP_Max[i] <- max(seta_NIDiasABP);
  ListaABP$NIDiasABP_Mean[i] <- mean(seta_NIDiasABP);

  # Parameter == 'NIMAP'
  #seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter == 'NIMAP'
, c('Time','Value')] ;
  seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter == 'NIMAP' ,
'Value'] ;
  ListaABP$NIMAP_Min[i] <- min(seta_NIMAP);
  ListaABP$NIMAP_Max[i] <- max(seta_NIMAP);
  ListaABP$NIMAP_Mean[i] <- mean(seta_NIMAP);

}#for i

Tabla <- data.frame(ListaABP);

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Gracias de antemano
Un saludo
MÂªLuz

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
Hola,

Si no tienes inconveniente en compartir tu conjunto de datos (puedes
dejarlo en un Dropbox y compartir enlace) o incluir una salida de la
variables: "seta" y "outcomes" (funciÃ³n "save.image()") con eso podemos
darte alguna soluciÃ³n mucho mÃ¡s rÃ¡pida que la que planteas.

En tu cÃ³digo con un bucle estÃ¡s tratando de rellenar una lista que son los
diferentes agregados y esto se puede hacer mucho mÃ¡s rÃ¡pido (segundos) con
varios paquetes: data.table, dplyr y sqldf.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 28 de mayo de 2015, 15:34, <javier.ruben.marcuzzi en gmail.com> escribiÃ³:
Estimada MarÃa Luz Morales

Puedes intentar con data.table y reemplazar for por algina otra opciÃ³n
vectorizada, aunque en R moderno esto mejorÃ³, y la posibilidad de compile
deberÃa ser evaluada.

Javier RubÃ©n Marcuzzi
TÃ©cnico en Industrias LÃ¡cteas
Veterinario

De: MÂªLuz Morales
Enviado el: ?jueves?, ?28? de ?mayo? de ?2015 ?10?:?21? ?a.m.
Para: R-help-es en r-project.org

En el correo anterior se me olvidÃ³ mencionar que trabajo con Rstudio

El 28 de mayo de 2015, 15:18, MÂªLuz Morales <mlzmrls en gmail.com> escribiÃ³:

Hola,
soy nueva en esta lista y tambiÃ©n en R. Yo he realizado un  script en R
que  carga dos archivos csv, uno de ellos con casi 2 millones de filas.
El
programa carga esos archivos a data frame, y se trata simplemente de
seleccionar ciertos datos, hacer alguna operaciÃ³n (media, minimo, mÃ¡ximo)
y  presentarlos en una tabla que tendrÃ¡ 4000 filas. La ejecuciÃ³n de este
programa ha tardado casi 3 horas!!!!, podÃ©is decirme si R es lento en
esta
operaciÃ³n o es que mi cÃ³digo no estÃ¡ optimizado y no estoy haciÃ©ndolo de
la
forma correcta.
El cÃ³digo de mi programa es el siguiente:

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## Set-A.csv y Outcomes.csv deben estar en el directorio actual
#  Transforma csv a data frame
seta <- read.csv('Set-A.csv');
outcomes <- read.csv('Outcomes-A.csv');

ids <- as.character(unique(outcomes$RecordID));
## NÃºmero de RecordsID distintos
Length_ids <- length(ids); #nÃºmero de RecordsID distintos
ListaABP <- list('RecordID'=-1,'SAPS.I'=-1, 'SOFA'=-1, 'Survival'=-1,
'In.hospital_death'=-1, 'NISysABP_Min'=-1,'NISysABP_Max'=-1,
'NISysABP_Mean'=-1, 'NIDiasABP_Min'=-1,'NIDiasABP_Max'=-1,
'NIDiasABP_Mean'=-1,'NIMAP_Min'=-1,'NIMAP_Max'=-1, 'NIMAP_Mean'=-1);
for (i in 1:Length_ids){#NumRecordID){   # Para cada paciente...

  ListaABP$RecordID[i] <- outcomes$RecordID[i];
  ListaABP$SAPS.I[i] <- outcomes$SAPS.I[i];
  ListaABP$SOFA[i] <- outcomes$SOFA[i];
  ListaABP$Survival[i] <- outcomes$Survival[i];
  ListaABP$In.hospital_death[i] <- outcomes$In.hospital_death[i];

  # Parameter == 'NISysBP'
  #seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , c('RecordID','Value')] ;
  seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , 'Value'] ; #Creo que esto ya no serÃa un dataframe, por lo
que
en la siguiente lÃnea puede dar error
  ListaABP$NISysABP_Min[i] <- min(seta_NISysABP);
  ListaABP$NISysABP_Max[i] <- max(seta_NISysABP);
  ListaABP$NISysABP_Mean[i] <- mean(seta_NISysABP);

  # Parameter == 'NIDiasABP'
  #seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , c('Time','Value')] ; #En este caso la forma de hacer el min
serÃa ...min(seta_NIDiasABP$Value);
  seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , 'Value'] ;
  ListaABP$NIDiasABP_Min[i] <- min(seta_NIDiasABP);
  ListaABP$NIDiasABP_Max[i] <- max(seta_NIDiasABP);
  ListaABP$NIDiasABP_Mean[i] <- mean(seta_NIDiasABP);

  # Parameter == 'NIMAP'
  #seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter == 'NIMAP'
, c('Time','Value')] ;
  seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter == 'NIMAP'
,
'Value'] ;
  ListaABP$NIMAP_Min[i] <- min(seta_NIMAP);
  ListaABP$NIMAP_Max[i] <- max(seta_NIMAP);
  ListaABP$NIMAP_Mean[i] <- mean(seta_NIMAP);

}#for i

Tabla <- data.frame(ListaABP);

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
Gracias de antemano
Un saludo
MÂªLuz

 [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]
Hola,
gracias por contestar tan rÃ¡pido.
En el email he adjuntado los archivos seta y outcomes.csv, no me queda
claro como hacer para que podÃ¡is acceder a ellos de otra manera.

El 28 de mayo de 2015, 15:53, Carlos Ortega <cof en qualityexcellence.es>
escribiÃ³:
Hola,

Si no tienes inconveniente en compartir tu conjunto de datos (puedes
dejarlo en un Dropbox y compartir enlace) o incluir una salida de la
variables: "seta" y "outcomes" (funciÃ³n "save.image()") con eso podemos
darte alguna soluciÃ³n mucho mÃ¡s rÃ¡pida que la que planteas.

En tu cÃ³digo con un bucle estÃ¡s tratando de rellenar una lista que son los
diferentes agregados y esto se puede hacer mucho mÃ¡s rÃ¡pido (segundos) con
varios paquetes: data.table, dplyr y sqldf.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 28 de mayo de 2015, 15:34, <javier.ruben.marcuzzi en gmail.com> escribiÃ³:

Estimada MarÃa Luz Morales

Puedes intentar con data.table y reemplazar for por algina otra opciÃ³n
vectorizada, aunque en R moderno esto mejorÃ³, y la posibilidad de compile
deberÃa ser evaluada.

Javier RubÃ©n Marcuzzi
TÃ©cnico en Industrias LÃ¡cteas
Veterinario

De: MÂªLuz Morales
Enviado el: ?jueves?, ?28? de ?mayo? de ?2015 ?10?:?21? ?a.m.
Para: R-help-es en r-project.org

En el correo anterior se me olvidÃ³ mencionar que trabajo con Rstudio

El 28 de mayo de 2015, 15:18, MÂªLuz Morales <mlzmrls en gmail.com> escribiÃ³:

Hola,
soy nueva en esta lista y tambiÃ©n en R. Yo he realizado un  script en R
que  carga dos archivos csv, uno de ellos con casi 2 millones de filas.
El
programa carga esos archivos a data frame, y se trata simplemente de
seleccionar ciertos datos, hacer alguna operaciÃ³n (media, minimo,
mÃ¡ximo)
y  presentarlos en una tabla que tendrÃ¡ 4000 filas. La ejecuciÃ³n de este
programa ha tardado casi 3 horas!!!!, podÃ©is decirme si R es lento en
esta
operaciÃ³n o es que mi cÃ³digo no estÃ¡ optimizado y no estoy haciÃ©ndolo
de la
forma correcta.
El cÃ³digo de mi programa es el siguiente:

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## Set-A.csv y Outcomes.csv deben estar en el directorio actual
#  Transforma csv a data frame
seta <- read.csv('Set-A.csv');
outcomes <- read.csv('Outcomes-A.csv');

ids <- as.character(unique(outcomes$RecordID));
## NÃºmero de RecordsID distintos
Length_ids <- length(ids); #nÃºmero de RecordsID distintos
ListaABP <- list('RecordID'=-1,'SAPS.I'=-1, 'SOFA'=-1, 'Survival'=-1,
'In.hospital_death'=-1, 'NISysABP_Min'=-1,'NISysABP_Max'=-1,
'NISysABP_Mean'=-1, 'NIDiasABP_Min'=-1,'NIDiasABP_Max'=-1,
'NIDiasABP_Mean'=-1,'NIMAP_Min'=-1,'NIMAP_Max'=-1, 'NIMAP_Mean'=-1);
for (i in 1:Length_ids){#NumRecordID){   # Para cada paciente...

  ListaABP$RecordID[i] <- outcomes$RecordID[i];
  ListaABP$SAPS.I[i] <- outcomes$SAPS.I[i];
  ListaABP$SOFA[i] <- outcomes$SOFA[i];
  ListaABP$Survival[i] <- outcomes$Survival[i];
  ListaABP$In.hospital_death[i] <- outcomes$In.hospital_death[i];

  # Parameter == 'NISysBP'
  #seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , c('RecordID','Value')] ;
  seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , 'Value'] ; #Creo que esto ya no serÃa un dataframe, por lo
que
en la siguiente lÃnea puede dar error
  ListaABP$NISysABP_Min[i] <- min(seta_NISysABP);
  ListaABP$NISysABP_Max[i] <- max(seta_NISysABP);
  ListaABP$NISysABP_Mean[i] <- mean(seta_NISysABP);

  # Parameter == 'NIDiasABP'
  #seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , c('Time','Value')] ; #En este caso la forma de hacer el
min
serÃa ...min(seta_NIDiasABP$Value);
  seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , 'Value'] ;
  ListaABP$NIDiasABP_Min[i] <- min(seta_NIDiasABP);
  ListaABP$NIDiasABP_Max[i] <- max(seta_NIDiasABP);
  ListaABP$NIDiasABP_Mean[i] <- mean(seta_NIDiasABP);

  # Parameter == 'NIMAP'
  #seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIMAP'
, c('Time','Value')] ;
  seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIMAP' ,
'Value'] ;
  ListaABP$NIMAP_Min[i] <- min(seta_NIMAP);
  ListaABP$NIMAP_Max[i] <- max(seta_NIMAP);
  ListaABP$NIMAP_Mean[i] <- mean(seta_NIMAP);

}#for i

Tabla <- data.frame(ListaABP);

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
Gracias de antemano
Un saludo
MÂªLuz

 [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

Hola MÂª Luz.

Tu primer mensaje no ha llegado a la lista precisamente por el tamaÃ±o de los ficheros adjuntos. Tienes un correo del administrador al respecto.
Al haber comentado tÃº misma ese mensaje, lo hemos podido leer todos pero no tenemos acceso al fichero Set-A.zip y al Outcomes.csv. (creo recordar que eran unos 9Mb entre los dos)
PodrÃas pensar en colgarlos en algÃºn sitio (tipo DropBox o similar) y compartir la URL. En caso de que tengas problemas envÃame un correo e intentarÃ© ayudarte.

Un Saludo,
Miguel RodrÃguez
ConsellerÃa de Sanidade
Xunta de Galicia
http://dxsp.sergas.es
Enviado: jueves, 28 de mayo de 2015 16:14
Para: Carlos Ortega
CC: R-help-es en r-project.org
Asunto: Re: [R-es] La ejecuciÃ³n de mi script R es muy lenta

Hola,
gracias por contestar tan rÃ¡pido.
En el email he adjuntado los archivos seta y outcomes.csv, no me queda
claro como hacer para que podÃ¡is acceder a ellos de otra manera.

El 28 de mayo de 2015, 15:53, Carlos Ortega <cof en qualityexcellence.es>
escribiÃ³:

> Hola,
>
> Si no tienes inconveniente en compartir tu conjunto de datos (puedes
> dejarlo en un Dropbox y compartir enlace) o incluir una salida de la
> variables: "seta" y "outcomes" (funciÃ³n "save.image()") con eso podemos
> darte alguna soluciÃ³n mucho mÃ¡s rÃ¡pida que la que planteas.
>
> En tu cÃ³digo con un bucle estÃ¡s tratando de rellenar una lista que son los
> diferentes agregados y esto se puede hacer mucho mÃ¡s rÃ¡pido (segundos) con
> varios paquetes: data.table, dplyr y sqldf.
>
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 28 de mayo de 2015, 15:34, <javier.ruben.marcuzzi en gmail.com> escribiÃ³:
>
>> Estimada MarÃa Luz Morales
>>
>>
>> Puedes intentar con data.table y reemplazar for por algina otra opciÃ³n
>> vectorizada, aunque en R moderno esto mejorÃ³, y la posibilidad de compile
>> deberÃa ser evaluada.
>>
>>
>>
>>
>>
>>
>> Javier RubÃ©n Marcuzzi
>> TÃ©cnico en Industrias LÃ¡cteas
>> Veterinario
>>
>>
>>
>>
>>
>> De: MÂªLuz Morales
>> Enviado el: ?jueves?, ?28? de ?mayo? de ?2015 ?10?:?21? ?a.m.
>> Para: R-help-es en r-project.org
>>
>>
>>
>>
>>
>> En el correo anterior se me olvidÃ³ mencionar que trabajo con Rstudio
>>
>> El 28 de mayo de 2015, 15:18, MÂªLuz Morales <mlzmrls en gmail.com> escribiÃ³:
>>
>> > Hola,
>> > soy nueva en esta lista y tambiÃ©n en R. Yo he realizado un  script en R
>> > que  carga dos archivos csv, uno de ellos con casi 2 millones de filas.
>> El
>> > programa carga esos archivos a data frame, y se trata simplemente de
>> > seleccionar ciertos datos, hacer alguna operaciÃ³n (media, minimo,
>> mÃ¡ximo)
>> > y  presentarlos en una tabla que tendrÃ¡ 4000 filas. La ejecuciÃ³n de este
>> > programa ha tardado casi 3 horas!!!!, podÃ©is decirme si R es lento en
>> esta
>> > operaciÃ³n o es que mi cÃ³digo no estÃ¡ optimizado y no estoy haciÃ©ndolo
>> de la
>> > forma correcta.
>> > El cÃ³digo de mi programa es el siguiente:
>> >
>> >
>> >
>> #+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
>> > ## Set-A.csv y Outcomes.csv deben estar en el directorio actual
>> > #  Transforma csv a data frame
>> > seta <- read.csv('Set-A.csv');
>> > outcomes <- read.csv('Outcomes-A.csv');
>> >
>> > ids <- as.character(unique(outcomes$RecordID));
>> > ## NÃºmero de RecordsID distintos
>> > Length_ids <- length(ids); #nÃºmero de RecordsID distintos
>> > ListaABP <- list('RecordID'=-1,'SAPS.I'=-1, 'SOFA'=-1, 'Survival'=-1,
>> > 'In.hospital_death'=-1, 'NISysABP_Min'=-1,'NISysABP_Max'=-1,
>> > 'NISysABP_Mean'=-1, 'NIDiasABP_Min'=-1,'NIDiasABP_Max'=-1,
>> > 'NIDiasABP_Mean'=-1,'NIMAP_Min'=-1,'NIMAP_Max'=-1, 'NIMAP_Mean'=-1);
>> > for (i in 1:Length_ids){#NumRecordID){   # Para cada paciente...
>> >
>> >   ListaABP$RecordID[i] <- outcomes$RecordID[i];
>> >   ListaABP$SAPS.I[i] <- outcomes$SAPS.I[i];
>> >   ListaABP$SOFA[i] <- outcomes$SOFA[i];
>> >   ListaABP$Survival[i] <- outcomes$Survival[i];
>> >   ListaABP$In.hospital_death[i] <- outcomes$In.hospital_death[i];
>> >
>> >   # Parameter == 'NISysBP'
>> >   #seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
>> > 'NISysABP' , c('RecordID','Value')] ;
>> >   seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
>> > 'NISysABP' , 'Value'] ; #Creo que esto ya no serÃa un dataframe, por lo
>> que
>> > en la siguiente lÃnea puede dar error
>> >   ListaABP$NISysABP_Min[i] <- min(seta_NISysABP);
>> >   ListaABP$NISysABP_Max[i] <- max(seta_NISysABP);
>> >   ListaABP$NISysABP_Mean[i] <- mean(seta_NISysABP);
>> >
>> >   # Parameter == 'NIDiasABP'
>> >   #seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
>> > 'NIDiasABP' , c('Time','Value')] ; #En este caso la forma de hacer el
>> min
>> > serÃa ...min(seta_NIDiasABP$Value);
>> >   seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
>> > 'NIDiasABP' , 'Value'] ;
>> >   ListaABP$NIDiasABP_Min[i] <- min(seta_NIDiasABP);
>> >   ListaABP$NIDiasABP_Max[i] <- max(seta_NIDiasABP);
>> >   ListaABP$NIDiasABP_Mean[i] <- mean(seta_NIDiasABP);
>> >
>> >   # Parameter == 'NIMAP'
>> >   #seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
>> 'NIMAP'
>> > , c('Time','Value')] ;
>> >   seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
>> 'NIMAP' ,
>> > 'Value'] ;
>> >   ListaABP$NIMAP_Min[i] <- min(seta_NIMAP);
>> >   ListaABP$NIMAP_Max[i] <- max(seta_NIMAP);
>> >   ListaABP$NIMAP_Mean[i] <- mean(seta_NIMAP);
>> >
>> > }#for i
>> >
>> > Tabla <- data.frame(ListaABP);
>> >
>> >
>> >
>> #+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
>> >
>> > Gracias de antemano
>> > Un saludo
>> > MÂªLuz
>> >
>> >
>>
>>  [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

________________________________

Nota: A informaciÃ³n contida nesta mensaxe e os seus posibles documentos adxuntos Ã© privada e confidencial e estÃ¡ dirixida Ãºnicamente Ã³ seu destinatario/a. Se vostede non Ã© o/a destinatario/a orixinal desta mensaxe, por favor elimÃnea. A distribuciÃ³n ou copia desta mensaxe non estÃ¡ autorizada.

Nota: La informaciÃ³n contenida en este mensaje y sus posibles documentos adjuntos es privada y confidencial y estÃ¡ dirigida Ãºnicamente a su destinatario/a. Si usted no es el/la destinatario/a original de este mensaje, por favor elimÃnelo. La distribuciÃ³n o copia de este mensaje no estÃ¡ autorizada.

See more languages: http://www.sergas.es/aviso_confidencialidad.htm
Hola Miguel Ãngel,
creo que Carlos Ortega me ha dado una soluciÃ³n a mi problema con R...voy a
probarlo... No sabÃa que habÃa esa limitaciÃ³n en el tamaÃ±o del email, lo
tendrÃ© en cuenta para la prÃ³xima.

Muchas gracias en cualquier caso
Un saludo

MÂªLuz Morales
Dpto. Ciencias y TecnologÃa de la comunicaciÃ³n
Universidad Europea de Madrid

El 28 de mayo de 2015, 22:29, <miguel.angel.rodriguez.muinos en sergas.es>
escribiÃ³:
Hola MÂª Luz.

Tu primer mensaje no ha llegado a la lista precisamente por el tamaÃ±o de
los ficheros adjuntos. Tienes un correo del administrador al respecto.
Al haber comentado tÃº misma ese mensaje, lo hemos podido leer todos pero
no tenemos acceso al fichero Set-A.zip y al Outcomes.csv. (creo recordar
que eran unos 9Mb entre los dos)
PodrÃas pensar en colgarlos en algÃºn sitio (tipo DropBox o similar) y
compartir la URL. En caso de que tengas problemas envÃame un correo e
intentarÃ© ayudarte.

Un Saludo,
Miguel RodrÃguez
ConsellerÃa de Sanidade
Xunta de Galicia
http://dxsp.sergas.es

________________________________________
De: R-help-es [r-help-es-bounces en r-project.org] en nombre de MÂªLuz
Morales [mlzmrls en gmail.com]
Enviado: jueves, 28 de mayo de 2015 16:14
Para: Carlos Ortega
CC: R-help-es en r-project.org
Asunto: Re: [R-es] La ejecuciÃ³n de mi script R es muy lenta

Hola,
gracias por contestar tan rÃ¡pido.
En el email he adjuntado los archivos seta y outcomes.csv, no me queda
claro como hacer para que podÃ¡is acceder a ellos de otra manera.

El 28 de mayo de 2015, 15:53, Carlos Ortega <cof en qualityexcellence.es>
escribiÃ³:

Hola,

Si no tienes inconveniente en compartir tu conjunto de datos (puedes
dejarlo en un Dropbox y compartir enlace) o incluir una salida de la
variables: "seta" y "outcomes" (funciÃ³n "save.image()") con eso podemos
darte alguna soluciÃ³n mucho mÃ¡s rÃ¡pida que la que planteas.

En tu cÃ³digo con un bucle estÃ¡s tratando de rellenar una lista que son
los
diferentes agregados y esto se puede hacer mucho mÃ¡s rÃ¡pido (segundos)
con
varios paquetes: data.table, dplyr y sqldf.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 28 de mayo de 2015, 15:34, <javier.ruben.marcuzzi en gmail.com>
escribiÃ³:

Estimada MarÃa Luz Morales

Puedes intentar con data.table y reemplazar for por algina otra opciÃ³n
vectorizada, aunque en R moderno esto mejorÃ³, y la posibilidad de
compile
deberÃa ser evaluada.

Javier RubÃ©n Marcuzzi
TÃ©cnico en Industrias LÃ¡cteas
Veterinario

De: MÂªLuz Morales
Enviado el: ?jueves?, ?28? de ?mayo? de ?2015 ?10?:?21? ?a.m.
Para: R-help-es en r-project.org

En el correo anterior se me olvidÃ³ mencionar que trabajo con Rstudio

El 28 de mayo de 2015, 15:18, MÂªLuz Morales <mlzmrls en gmail.com>
escribiÃ³:

Hola,
soy nueva en esta lista y tambiÃ©n en R. Yo he realizado un  script en
R
que  carga dos archivos csv, uno de ellos con casi 2 millones de
filas.
El
programa carga esos archivos a data frame, y se trata simplemente de
seleccionar ciertos datos, hacer alguna operaciÃ³n (media, minimo,
mÃ¡ximo)
y  presentarlos en una tabla que tendrÃ¡ 4000 filas. La ejecuciÃ³n de
este
programa ha tardado casi 3 horas!!!!, podÃ©is decirme si R es lento en
esta
operaciÃ³n o es que mi cÃ³digo no estÃ¡ optimizado y no estoy haciÃ©ndolo
de la
forma correcta.
El cÃ³digo de mi programa es el siguiente:

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
## Set-A.csv y Outcomes.csv deben estar en el directorio actual
#  Transforma csv a data frame
seta <- read.csv('Set-A.csv');
outcomes <- read.csv('Outcomes-A.csv');

ids <- as.character(unique(outcomes$RecordID));
## NÃºmero de RecordsID distintos
Length_ids <- length(ids); #nÃºmero de RecordsID distintos
ListaABP <- list('RecordID'=-1,'SAPS.I'=-1, 'SOFA'=-1, 'Survival'=-1,
'In.hospital_death'=-1, 'NISysABP_Min'=-1,'NISysABP_Max'=-1,
'NISysABP_Mean'=-1, 'NIDiasABP_Min'=-1,'NIDiasABP_Max'=-1,
'NIDiasABP_Mean'=-1,'NIMAP_Min'=-1,'NIMAP_Max'=-1, 'NIMAP_Mean'=-1);
for (i in 1:Length_ids){#NumRecordID){   # Para cada paciente...

  ListaABP$RecordID[i] <- outcomes$RecordID[i];
  ListaABP$SAPS.I[i] <- outcomes$SAPS.I[i];
  ListaABP$SOFA[i] <- outcomes$SOFA[i];
  ListaABP$Survival[i] <- outcomes$Survival[i];
  ListaABP$In.hospital_death[i] <- outcomes$In.hospital_death[i];

  # Parameter == 'NISysBP'
  #seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , c('RecordID','Value')] ;
  seta_NISysABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NISysABP' , 'Value'] ; #Creo que esto ya no serÃa un dataframe, por
lo
que
en la siguiente lÃnea puede dar error
  ListaABP$NISysABP_Min[i] <- min(seta_NISysABP);
  ListaABP$NISysABP_Max[i] <- max(seta_NISysABP);
  ListaABP$NISysABP_Mean[i] <- mean(seta_NISysABP);

  # Parameter == 'NIDiasABP'
  #seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , c('Time','Value')] ; #En este caso la forma de hacer el
min
serÃa ...min(seta_NIDiasABP$Value);
  seta_NIDiasABP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIDiasABP' , 'Value'] ;
  ListaABP$NIDiasABP_Min[i] <- min(seta_NIDiasABP);
  ListaABP$NIDiasABP_Max[i] <- max(seta_NIDiasABP);
  ListaABP$NIDiasABP_Mean[i] <- mean(seta_NIDiasABP);

  # Parameter == 'NIMAP'
  #seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIMAP'
, c('Time','Value')] ;
  seta_NIMAP <- seta[seta$RecordID == ids[i] & seta$Parameter ==
'NIMAP' ,
'Value'] ;
  ListaABP$NIMAP_Min[i] <- min(seta_NIMAP);
  ListaABP$NIMAP_Max[i] <- max(seta_NIMAP);
  ListaABP$NIMAP_Mean[i] <- mean(seta_NIMAP);

}#for i

Tabla <- data.frame(ListaABP);

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

Gracias de antemano
Un saludo
MÂªLuz

 [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

--
Saludos,
Carlos Ortega
www.qualityexcellence.es

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

________________________________

Nota: A informaciÃ³n contida nesta mensaxe e os seus posibles documentos
adxuntos Ã© privada e confidencial e estÃ¡ dirixida Ãºnicamente Ã³ seu
destinatario/a. Se vostede non Ã© o/a destinatario/a orixinal desta mensaxe,
por favor elimÃnea. A distribuciÃ³n ou copia desta mensaxe non estÃ¡
autorizada.

Nota: La informaciÃ³n contenida en este mensaje y sus posibles documentos
adjuntos es privada y confidencial y estÃ¡ dirigida Ãºnicamente a su
destinatario/a. Si usted no es el/la destinatario/a original de este
mensaje, por favor elimÃnelo. La distribuciÃ³n o copia de este mensaje no
estÃ¡ autorizada.

See more languages: http://www.sergas.es/aviso_confidencialidad.htm