Buenas tardes:
Por si a alguien le resulta de utilidad, ya he podido sacar tiempo para
hacer pruebas con 3 ficheros Excel, de?
- 99,9 MB y 2 hojas
- 245 MB y 2 hojas
- 738 MB y 3 hojas
Los tiempos de lectura de la carga de las 7 hojas en los 3 ficheros para
cada paquete han sido (en un portátil bastante modesto):
- SheetReader: inestable, he intentado varias veces la carga y RStudio
me ha sacado la tÃpica bombita de crash. Pero me ha parecido más
rápido que el resto (vista la carga de las primeras hojas, antes de petar)
- readxl: 38 minutos
- openxlsx: 20 minutos
- openxlsx2: inestable, también ha salido la bombita.
No he especificado formato de columnas, porque me interesaba leer ?a lo
bruto?, sin conocimiento previo del fichero.
Lo que tengo claro es que usaré SheetReader y si peta, openxlsx.
Gracias por los consejos y saludos,
Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla ? La Mancha
*De:* Carlos Ortega <cof en qualityexcellence.es>
*Enviado el:* lunes, 10 de marzo de 2025 12:49
*Para:* Isidro Hidalgo Arellano <ihidalgo en jccm.es>
*CC:* r-help-es en r-project.org
*Asunto:* Re: [R-es] Excel
Probé en su momento con "openxlsx" y su nueva versión "openxlsx2" que
reescribieron el paquete.. pero la SheetReader seguÃa siendo el más
rápido con diferencia...
El lun, 10 mar 2025 a las 12:16, Isidro Hidalgo Arellano (<
ihidalgo en jccm.es>) escribió:
Lo probaré, Carlos.
Gracias
P.D.: haré una comparativa en un trÃo de ficheros que tengo y os cuento.
Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla ? La Mancha
*De:* Carlos Ortega <cof en qualityexcellence.es>
*Enviado el:* lunes, 10 de marzo de 2025 11:53
*Para:* Isidro Hidalgo Arellano <ihidalgo en jccm.es>
*CC:* r-help-es en r-project.org
*Asunto:* Re: [R-es] Excel
Hola,
Prueba "SheetReader"... el más rápido de todos los que he probado... está
hecho en C++.
https://cran.r-project.org/web/packages/SheetReader/index.html
Gracias,
Carlos Ortega
http://secure-web.cisco.com/1WtqfMrbdCZ06l7QITkV2xTYN-BC14GNFo4kSbLdNmK-fKYBsnCfF4XDwVNWgv0JyyiSU0gBz1Cb4wLEFVrsvXx_fWaKxYvoRAx4xsS0Hbxl0AI5uWAKcV1LcwsuM_7lEAKnCk8RJnSzk_P0UUBo-2q3pCPoLHlz2aiN8v1TZIC-uRekGscj_XgjTqOjcmKb6nLwn2CN-PsSfPnOr6TC3IET1Hc4ynMfzK-fnA8BN7vyEVKctnMye4cbYVjCtelWFeN4S-Zeo8Va-FdkCfLj0vA/http%3A%2F%2Fwww.qualityexcellence.es
El lun, 10 mar 2025 a las 11:22, Isidro Hidalgo Arellano via R-help-es (<
r-help-es en r-project.org>) escribió:
¿Qué paquete es más rápido para leer muchos ficheros Excel que suponen
conjuntamente millones de registros?
Que no use Java, por favor. Estoy usando "readxl", precisamente porque no
tiene Java, pero es leeeeento.
Muchas gracias
Isidro Hidalgo Arellano
Oficina del Dato
Junta de Comunidades de Castilla - La Mancha
[[alternative HTML version deleted]]