Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener
mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
(visualmente ves todos los documentos igual), resulta que no lo es, y te
encuentras "saltos" de página, códigos de cabeceras de tabla, etc.
Colocados
de forma diferente según el ejemplar de PDF.
Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
margen de error (contemplando toda la casuÃstica que puedas encontrar por
el
camino). En fin, perdona el rollo...
Suerte.
Isidro Hidalgo Arellano
Observatorio del Mercado de Trabajo
ConsejerÃa de EconomÃa, Empresas y Empleo
http://www.castillalamancha.es/
-----Mensaje original-----
De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel
SpÃnola
Enviado el: viernes, 29 de septiembre de 2017 16:47
Para: R <r-help-es en r-project.org>
Asunto: [R-es] MinerÃa de testo en R
Estimados miembros del grupo,
Estoy buscando paquetes de R que permitan hacer minerÃa de textos de
archivos PDF o Word que tengan una estructura tabular (cuadros) de
resultado
de talleres de trabajo donde se tratan diferentes ejes temáticos.
Especifico esto porque he visto que algunos paquetes analizan directamente
texto de libros, tweets u otras fuentes donde no hay una estructura como
cuadros en el texto que se quiere analizar.
Desde ya muchas gracias por la ayuda.
Saludos,
Manuel
--
*Manuel SpÃnola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr
<mspinola en una.ac.cr> mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de rÃo <https://sites.google.com/
site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
[[alternative HTML version deleted]]