[R-es] Cannot allocate a vector of size...

Hola Miriam,

Puedes hacer varias cosas para salir al paso:

   - El flujo proceso que se suele seguir en este tipo de anÃ¡lisis es el de
   cargar todos los documentos a una gran matriz (documento/palabra) sobre la
   que luego te quitas muchas palabras "inÃºtiles" (las stopwords). Pues lo que
   puedes hacer de primeras, es sobre tus ficheros de palabras de entrada
   limpiarles y quitarles estas palabras (preposiciones, artÃculos y
   adverbios) con esto minimizas mucho el nÃºmero de palabras a representar.
   TambiÃ©n habrÃ¡ palabras que en tu tipo de anÃ¡lisis significarÃ¡n poco (me lo
   invento la palabra "producto" por ejemplo).
      - Â¿CÃ³mo limpio esto en mis ficheros?. Puedes hacerlo con cierta
      facilidad utilizando comandos de linux (grep, sed en particular).
      - Una vez que has limpiado todo esto, puedes volver a probar a cargar
      el nuevo fichero en "tm" y proceder con el anÃ¡lisis. Si es que tu memoria
      RAM (no el disco como te han dicho) es la suficiente.
      - Realmente, si estÃ¡s interesada en conocer la frecuencia de palabras
         para luego pintar una "inÃºtil" nube de palabras, puedes
incluso calcular la
         frecuencia de apariciÃ³n igualmente con un comando de linux (unique). Y
         luego usar el paquete "wordcloud2" para pintar la nubecita. :-).
      - Como alternativa, como supongo que querrÃ¡s analizar sentimiento, y
   estas cosa o incluso ver POS cambiarÃa de tercio y no usarÃa "tm" me
   pasarÃa a la librerÃa "udpipe" o en su defecto a la librerÃa (tidytext) del
   que Julia Silge (su autora, tiene su libro de cÃ³mo usar su librerÃa en
   abierto:
   https://www.tidytextmining.com/tidytext.html#the-unnest_tokens-function).

Saludos,
Carlos Ortega
www.qualityexcellence.es

El lun., 10 feb. 2020 a las 17:20, Xavier-Andoni Tibau Alberdi (<
xavitibau en gmail.com>) escribiÃ³:

[R-es] Cannot allocate a vector of size...

Thread (11 messages)