Skip to content

[R-es] Minería de testo en R

7 messages · Isidro Hidalgo, Carlos Ortega, Jesús Para Fernández +1 more

#
Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener
mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
(visualmente ves todos los documentos igual), resulta que no lo es, y te
encuentras "saltos" de página, códigos de cabeceras de tabla, etc. Colocados
de forma diferente según el ejemplar de PDF.
Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
margen de error (contemplando toda la casuística que puedas encontrar por el
camino). En fin, perdona el rollo...
Suerte.


Isidro Hidalgo Arellano
Observatorio del Mercado de Trabajo
Consejería de Economía, Empresas y Empleo
http://www.castillalamancha.es/



-----Mensaje original-----
De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel
Spínola
Enviado el: viernes, 29 de septiembre de 2017 16:47
Para: R <r-help-es en r-project.org>
Asunto: [R-es] Minería de testo en R

Estimados miembros del grupo,

Estoy buscando paquetes de R que permitan hacer minería de textos de
archivos PDF o Word que tengan una estructura tabular (cuadros) de resultado
de talleres de trabajo donde se tratan diferentes ejes temáticos.

Especifico esto porque he visto que algunos paquetes analizan directamente
texto de libros, tweets u otras fuentes donde no hay una estructura como
cuadros en el texto que se quiere analizar.

Desde ya muchas gracias por la ayuda.

Saludos,

Manuel

--
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr
<mspinola en una.ac.cr> mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>


_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
#
Hola,

Hay una adaptación específica a R de una solución comercial, pero que se
puede usar hasta cierto número de llamdas: pdftools

https://cloud.r-project.org/web/packages/pdftools/index.html

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es>
escribió:

  
    
#
Muchas gracias Isidro.  Recién me doy cuenta del error ortográfico en el
subject, test en lugar de texto.

Manuel

El 2 de octubre de 2017, 1:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es>
escribió:

  
    
#
Muchas gracias Carlos.

Manuel

El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es>
escribió:

  
    
#
Pido disculpas por el error ortográfico en el subject, no me di cuenta.

Manuel

El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com>
escribió:

  
    
#
A la hoguera!!!! ?
#
Jajajaja, por lo menos.



El 3 de octubre de 2017, 3:08, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió: