Skip to content
Prev 10962 / 15379 Next

[R-es] Big data con R

Coincido contigo José Luis sobre todo en lo de muestrear, todo lo demás no está mal pero siempre que se observe un poco la naturaleza y se entienda lo más posible el cómo se genera la información.


Hablar de mezclar grandes volúmenes de información de sacar relaciones entre miles de variables sin criterios claros de depuración de información y no me refiero sólo al tratamiento (que no eliminación total) de los outliers, sino a determinados datos engañosos que ensucian en ocasiones las tablas y que hay que eliminar o interpolar, ceros o números tipo 999 o 999999999 que se confunden con missing, cadenas de caracteres sin sentido, datos erróneos de transacciones que finalmente no llegaron a existir, ... y que hay que poder detectar y limpiar, además del sentido de negocio y de la interpretabilidad de las soluciones finales, cumplimiento de hipótesis de partida, etc


En fin, bastantes cosas de las que no se habla y que da la sensación (y espero equivocarme) de que casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB directamente que te habían pasado de no sé donde, y "ala", hemos encontrado la relación que establece que el Número de Nacimientos en Mozambique que explica bastante bien el Incremento de nuestras Ventas de Cepillos de Dientes


Un saludo
Message-ID: <AM4PR0501MB26898CAD65D369FC44A240AFCD610@AM4PR0501MB2689.eurprd05.prod.outlook.com>
In-Reply-To: <CADdZEnNBG4au85G6+oxC7StKHedBAFL9U4fU5-mXxSKQGmt62A@mail.gmail.com>