[R-es] Big data con R

Coincido contigo JosÃ© Luis sobre todo en lo de muestrear, todo lo demÃ¡s no estÃ¡ mal pero siempre que se observe un poco la naturaleza y se entienda lo mÃ¡s posible el cÃ³mo se genera la informaciÃ³n.

Hablar de mezclar grandes volÃºmenes de informaciÃ³n de sacar relaciones entre miles de variables sin criterios claros de depuraciÃ³n de informaciÃ³n y no me refiero sÃ³lo al tratamiento (que no eliminaciÃ³n total) de los outliers, sino a determinados datos engaÃ±osos que ensucian en ocasiones las tablas y que hay que eliminar o interpolar, ceros o nÃºmeros tipo 999 o 999999999 que se confunden con missing, cadenas de caracteres sin sentido, datos errÃ³neos de transacciones que finalmente no llegaron a existir, ... y que hay que poder detectar y limpiar, ademÃ¡s del sentido de negocio y de la interpretabilidad de las soluciones finales, cumplimiento de hipÃ³tesis de partida, etc

En fin, bastantes cosas de las que no se habla y que da la sensaciÃ³n (y espero equivocarme) de que casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB directamente que te habÃan pasado de no sÃ© donde, y "ala", hemos encontrado la relaciÃ³n que establece que el NÃºmero de Nacimientos en Mozambique que explica bastante bien el Incremento de nuestras Ventas de Cepillos de Dientes

Un saludo

[R-es] Big data con R

Thread (4 messages)