Skip to content
Prev 13692 / 15379 Next

[R-es] Cannot allocate a vector of size...

Hola Miriam,

Puedes hacer varias cosas para salir al paso:

   - El flujo proceso que se suele seguir en este tipo de análisis es el de
   cargar todos los documentos a una gran matriz (documento/palabra) sobre la
   que luego te quitas muchas palabras "inútiles" (las stopwords). Pues lo que
   puedes hacer de primeras, es sobre tus ficheros de palabras de entrada
   limpiarles y quitarles estas palabras (preposiciones, artículos y
   adverbios) con esto minimizas mucho el número de palabras a representar.
   También habrá palabras que en tu tipo de análisis significarán poco (me lo
   invento la palabra "producto" por ejemplo).
      - ¿Cómo limpio esto en mis ficheros?. Puedes hacerlo con cierta
      facilidad utilizando comandos de linux (grep, sed en particular).
      - Una vez que has limpiado todo esto, puedes volver a probar a cargar
      el nuevo fichero en "tm" y proceder con el análisis. Si es que tu memoria
      RAM (no el disco como te han dicho) es la suficiente.
      - Realmente, si estás interesada en conocer la frecuencia de palabras
         para luego pintar una "inútil" nube de palabras, puedes
incluso calcular la
         frecuencia de aparición igualmente con un comando de linux (unique). Y
         luego usar el paquete "wordcloud2" para pintar la nubecita. :-).
      - Como alternativa, como supongo que querrás analizar sentimiento, y
   estas cosa o incluso ver POS cambiaría de tercio y no usaría "tm" me
   pasaría a la librería "udpipe" o en su defecto a la librería (tidytext) del
   que Julia Silge (su autora, tiene su libro de cómo usar su librería en
   abierto:
   https://www.tidytextmining.com/tidytext.html#the-unnest_tokens-function).


Saludos,
Carlos Ortega
www.qualityexcellence.es



El lun., 10 feb. 2020 a las 17:20, Xavier-Andoni Tibau Alberdi (<
xavitibau en gmail.com>) escribió: