Skip to content

[R-es] Excel

10 messages · Emilio L. Cano, Carlos Ortega, Isidro Hidalgo +1 more

#
?Qu? paquete es m?s r?pido para leer muchos ficheros Excel que suponen conjuntamente millones de registros?
Que no use Java, por favor. Estoy usando "readxl", precisamente porque no tiene Java, pero es leeeeento.
Muchas gracias

Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla - La Mancha
#
Hola Isidro,

¿Has probado openxlsx? Sería mi primer intento después de readxl.

Un saludo,

Emilio
#
Hola,

Prueba "SheetReader"... el más rápido de todos los que he probado... está
hecho en C++.
https://cran.r-project.org/web/packages/SheetReader/index.html

Gracias,
Carlos Ortega
www.qualityexcellence.es

El lun, 10 mar 2025 a las 11:22, Isidro Hidalgo Arellano via R-help-es (<
r-help-es en r-project.org>) escribió:

  
    
#
Lo he probado alguna vez, precisamente porque no tira de Java, pero esta vez no. Lo haré. Gracias, Emilio.

-----Mensaje original-----
De: Emilio L. Cano <emilopezcano en gmail.com> 
Enviado el: lunes, 10 de marzo de 2025 11:40
Para: Isidro Hidalgo Arellano <ihidalgo en jccm.es>
CC: r-help-es en r-project.org
Asunto: Re: [R-es] Excel

Hola Isidro,

¿Has probado openxlsx? Sería mi primer intento después de readxl.

Un saludo,

Emilio
#
Lo probaré, Carlos.
Gracias
P.D.: haré una comparativa en un trío de ficheros que tengo y os cuento.

Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla ? La Mancha

De: Carlos Ortega <cof en qualityexcellence.es>
Enviado el: lunes, 10 de marzo de 2025 11:53
Para: Isidro Hidalgo Arellano <ihidalgo en jccm.es>
CC: r-help-es en r-project.org
Asunto: Re: [R-es] Excel

Hola,

Prueba "SheetReader"... el más rápido de todos los que he probado... está hecho en C++.
https://cran.r-project.org/web/packages/SheetReader/index.html

Gracias,
Carlos Ortega
http://secure-web.cisco.com/1WtqfMrbdCZ06l7QITkV2xTYN-BC14GNFo4kSbLdNmK-fKYBsnCfF4XDwVNWgv0JyyiSU0gBz1Cb4wLEFVrsvXx_fWaKxYvoRAx4xsS0Hbxl0AI5uWAKcV1LcwsuM_7lEAKnCk8RJnSzk_P0UUBo-2q3pCPoLHlz2aiN8v1TZIC-uRekGscj_XgjTqOjcmKb6nLwn2CN-PsSfPnOr6TC3IET1Hc4ynMfzK-fnA8BN7vyEVKctnMye4cbYVjCtelWFeN4S-Zeo8Va-FdkCfLj0vA/http%3A%2F%2Fwww.qualityexcellence.es

El lun, 10 mar 2025 a las 11:22, Isidro Hidalgo Arellano via R-help-es (<r-help-es en r-project.org<mailto:r-help-es en r-project.org>>) escribió:
¿Qué paquete es más rápido para leer muchos ficheros Excel que suponen conjuntamente millones de registros?
Que no use Java, por favor. Estoy usando "readxl", precisamente porque no tiene Java, pero es leeeeento.
Muchas gracias

Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla - La Mancha



_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es


--
Saludos,
Carlos Ortega
http://secure-web.cisco.com/1WtqfMrbdCZ06l7QITkV2xTYN-BC14GNFo4kSbLdNmK-fKYBsnCfF4XDwVNWgv0JyyiSU0gBz1Cb4wLEFVrsvXx_fWaKxYvoRAx4xsS0Hbxl0AI5uWAKcV1LcwsuM_7lEAKnCk8RJnSzk_P0UUBo-2q3pCPoLHlz2aiN8v1TZIC-uRekGscj_XgjTqOjcmKb6nLwn2CN-PsSfPnOr6TC3IET1Hc4ynMfzK-fnA8BN7vyEVKctnMye4cbYVjCtelWFeN4S-Zeo8Va-FdkCfLj0vA/http%3A%2F%2Fwww.qualityexcellence.es
#
Probé en su momento con "openxlsx" y su nueva versión "openxlsx2" que
reescribieron el paquete.. pero la SheetReader seguía siendo el más rápido
con diferencia...

El lun, 10 mar 2025 a las 12:16, Isidro Hidalgo Arellano (<ihidalgo en jccm.es>)
escribió:

  
    
#
Estimados

Para escribir un archivo xlsx, posiblemente, y no lo he probado personalmente, una opción es c++ y R tiene formas simples de utilizar código c++, al respecto hay una alternativa que podría ser útil y es https://www.libxl.com/examples.html

También está la versión de la propia Microsoft, habría que probar porque si son muchos, lo que anda fácil con copos puede fallar.

Javier Marcuzzi

  
  
8 days later
#
Buenas tardes:
Por si a alguien le resulta de utilidad, ya he podido sacar tiempo para hacer pruebas con 3 ficheros Excel, de?

  *   99,9 MB y 2 hojas
  *   245 MB y 2 hojas
  *   738 MB y 3 hojas
Los tiempos de lectura de la carga de las 7 hojas en los 3 ficheros para cada paquete han sido (en un portátil bastante modesto):

  *   SheetReader: inestable, he intentado varias veces la carga y RStudio me ha sacado la típica bombita de crash. Pero me ha parecido más rápido que el resto (vista la carga de las primeras hojas, antes de petar)
  *   readxl: 38 minutos
  *   openxlsx: 20 minutos
  *   openxlsx2: inestable, también ha salido la bombita.
No he especificado formato de columnas, porque me interesaba leer ?a lo bruto?, sin conocimiento previo del fichero.
Lo que tengo claro es que usaré SheetReader y si peta, openxlsx.
Gracias por los consejos y saludos,

Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla ? La Mancha

De: Carlos Ortega <cof en qualityexcellence.es>
Enviado el: lunes, 10 de marzo de 2025 12:49
Para: Isidro Hidalgo Arellano <ihidalgo en jccm.es>
CC: r-help-es en r-project.org
Asunto: Re: [R-es] Excel

Probé en su momento con "openxlsx" y su nueva versión "openxlsx2" que reescribieron el paquete.. pero la SheetReader seguía siendo el más rápido con diferencia...

El lun, 10 mar 2025 a las 12:16, Isidro Hidalgo Arellano (<ihidalgo en jccm.es<mailto:ihidalgo en jccm.es>>) escribió:
Lo probaré, Carlos.
Gracias
P.D.: haré una comparativa en un trío de ficheros que tengo y os cuento.

Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla ? La Mancha

De: Carlos Ortega <cof en qualityexcellence.es<mailto:cof en qualityexcellence.es>>
Enviado el: lunes, 10 de marzo de 2025 11:53
Para: Isidro Hidalgo Arellano <ihidalgo en jccm.es<mailto:ihidalgo en jccm.es>>
CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
Asunto: Re: [R-es] Excel

Hola,

Prueba "SheetReader"... el más rápido de todos los que he probado... está hecho en C++.
https://cran.r-project.org/web/packages/SheetReader/index.html

Gracias,
Carlos Ortega
http://secure-web.cisco.com/1WtqfMrbdCZ06l7QITkV2xTYN-BC14GNFo4kSbLdNmK-fKYBsnCfF4XDwVNWgv0JyyiSU0gBz1Cb4wLEFVrsvXx_fWaKxYvoRAx4xsS0Hbxl0AI5uWAKcV1LcwsuM_7lEAKnCk8RJnSzk_P0UUBo-2q3pCPoLHlz2aiN8v1TZIC-uRekGscj_XgjTqOjcmKb6nLwn2CN-PsSfPnOr6TC3IET1Hc4ynMfzK-fnA8BN7vyEVKctnMye4cbYVjCtelWFeN4S-Zeo8Va-FdkCfLj0vA/http%3A%2F%2Fwww.qualityexcellence.es

El lun, 10 mar 2025 a las 11:22, Isidro Hidalgo Arellano via R-help-es (<r-help-es en r-project.org<mailto:r-help-es en r-project.org>>) escribió:
¿Qué paquete es más rápido para leer muchos ficheros Excel que suponen conjuntamente millones de registros?
Que no use Java, por favor. Estoy usando "readxl", precisamente porque no tiene Java, pero es leeeeento.
Muchas gracias

Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla - La Mancha



_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es


--
Saludos,
Carlos Ortega
http://secure-web.cisco.com/1WtqfMrbdCZ06l7QITkV2xTYN-BC14GNFo4kSbLdNmK-fKYBsnCfF4XDwVNWgv0JyyiSU0gBz1Cb4wLEFVrsvXx_fWaKxYvoRAx4xsS0Hbxl0AI5uWAKcV1LcwsuM_7lEAKnCk8RJnSzk_P0UUBo-2q3pCPoLHlz2aiN8v1TZIC-uRekGscj_XgjTqOjcmKb6nLwn2CN-PsSfPnOr6TC3IET1Hc4ynMfzK-fnA8BN7vyEVKctnMye4cbYVjCtelWFeN4S-Zeo8Va-FdkCfLj0vA/http%3A%2F%2Fwww.qualityexcellence.es


--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
#
Gracias Isidro por las diferentes pruebas.

Tuve problemas parecidos con algunas ficheros de Excel y probé a compartir
estos errores a los autores del paquete aunque no les he visto muy
receptivos... Hasta les envié un posible hex-logo de lo que tampoco tuve
respuesta...

Gracias,
Carlos Ortega
www.qualityexcellence.es

El mié, 19 mar 2025 a las 9:08, Isidro Hidalgo Arellano (<ihidalgo en jccm.es>)
escribió:

  
    
#
Gracias por el comentario

Yo, al trabajar con archivos semejantes, lo supe pasar a mysql y luego consultar desde R la base de datos, utilice eso porque justo estaba con el software navicat y mysql instalado, el tamaño de archivo era similar, pero en lugar de excel era access, básicamente la orden fue, importa todo, arreglase solo (navicat pudo perfectamente) y luego consultaba los datos desde R, sin necesidad de andar ?cargando? datos que no hacían falta.

Puede ser que una alternativa semejante mejore la estabilidad, podría ser sqlite, porque el problema de RStudio es que es una página web, bueno, un navegador y servidor que solo hace eso, incluso si realizo click derecho accedo a la parte del inspector web, como chrome.

Posiblemente esto mejore la estabilidad.

Javier Marcuzzi