Big Data

0

Si me preguntasen qué tendencia tecnológica está actualmente de moda, sin ninguna duda respondería “Big Data”. De la noche a la mañana todo el mundo comienza a hablar del Big Data como si hubiese estado con nosotros desde el inicio de los tiempos. ¿Pero es el Big Data el Santo Grial de Business Intelligence?

En este artículo reviso la tecnología del Big Data.

¿Qué es?

Simple y llanamente, el Big Data es la acumulación y posterior procesados de grandes cantidades de datos. ¿He dicho grandes? Muy grandes cantidades de datos, enormes! El procesado de estos datos se hace con dos objetivos:

  • Estudiar qué ha pasado
  • Estudiar qué pasará

Es esa segunda parte la que vuelve locas a las empresas. Toman el Big Data como una bola de cristal que les revele el futuro.

La verdad es que este concepto de almacenar datos y procesarlos para descubrir cambios, tendencias, correlaciones y patrones, no es nuevo. Hablamos del Business Intelligence de toda la vida. Lo que es nuevo es el volumen de datos. A mas datos, mayores las posibilidades y mayor es el reto tecnológico. Este aumento en el volumen de datos hace cambiar las estrategias de procesado. Antes se trabajaba con bases de datos SQL, ahora se buscan bases de datos más rápidas y con menos capacidad de búsquedas, como las bases de datos no-SQL.

Si hace unos años era habitual trabajar con MB de información y en ocasiones GB, en Big Data comenzamos con TB, PB y en algunos casos EB (Un ExaByte es un billón de MB, o un trillón de bytes!). Ya sólo el soporte en disco para toda esta cantidad de información es un gran reto. No digamos ya procesarlo para sacar información útil.

Las tres, cuatro o cinco V’s del Big Data

A los americanos les encanta encerrar los conceptos clave en una regla memotécnica. En este caso es: palabras que empiezan con V. Comenzaron siendo tres las palabras clave para describir un buen sistema de Big Data, y actualmente ya se habla de cuatro o incluso cinco:

  • Volumen: Cuanta más información, mayores las posibilidades de procesado.
  • Variedad: No sólo es necesario tener muchos datos, éstos deben cubrir toda la causística a la que nos enfrentamos y presentarla de diferentes maneras.
  • Velocidad: De procesado. Si no somos capaces de procesar rápidamente la información, para cuando tenemos una conclusión, puede ya no ser válida.
  • Veracidad: La información basura sólo contamina nuestro resultado. Necesitamos información fiable y veraz para poder procesarla.
  • Valor: La información debe aportar valor a negocio. La información puede ser inútil.

Así hablamos de recopilar muchos datos, de diversas fuentes y conseguir que sean fiables. Por ejemplo, si quiero estudiar la reputación on-line de mi marca, tendré que analizar tweets, comentarios en redes sociales, artículos de prensa, encuestas y mucha más información. Y no sólo mía, sino de cualquier otra cosa que pueda estar correlado, como información de la competencia, cotizaciones de bolsa, variables macroeconómicas de los paises que me afectan, etc. Todo esto se meterá en un gran sistema para su análisis y procesado.

Los casos de éxito

Si consultas la web de cualquier proveedor de servicios de Big Data podrás ver grandes casos de éxito. Pero claro, no es oro todo lo que reluce, y también hay grandes fracasos. No es una bola de cristal y a veces no se consigue un valor real para la empresa que se apunta a la iniciativa.

Los retos a los que se enfrentan son enormes, porque no siempre es posible extraer la información que se desea. Por ejemplo, volviendo al caso de la reputación on-line, tendremos los tweets. Ya sólo en evaluar si un tweet es sobre nuestra marca, ya tenemos un reto. Un tweet sobre “la compañía de la manzanita”, o “el legado de Apple”, está claro que habla sobre Apple. Pero no es tan claro que lo determine un sistema de procesado. No digamos ya si hay que evaluar de qué trata este tweet, o si el comentario es positivo o negativo. Y luego crúzalo con vídeos de youtube, anuncios en prensa u otra información. El reto a veces es tan grande, que los resultados son decepcionantes.

Además la predicción del futuro no siempre es posible. Todo sistema estocástico se componen de una función que parte del histórico y una incertidumbre que se añade. Es decir, de una parte predecible y de una impredecible. ¿Cómo voy a predecir las ventas de mi producto si a lo mejor mañana lanzan uno nuevo al mercado?

Como es natural, la gente no va publicitando sus fracasos, pero estoy seguro de que hay toneladas de ellos.

(c) Thierry Gregorius

(c) Thierry Gregorius

¿Realmente ayuda el volumen?

Una de las máximas que se aplica en Big Data, es que cuanto más datos mejor. Y no acabo de verlo así. Está claro que a veces sí, pero en otras, lo único que hará es aumentar los costes del procesado con poca mejora. Hay un punto en que el volumen de datos ya contienen la información que queremos extraer, y el resto es redundancia de la información.

En muchas ocasiones es mejor utilizar métodos tradicionales, como fijarse en los valores “normales” de las variables que estamos estudiando y sólo fijarnos en los aberrantes. Muchos de estos aberrantes serán ruido, pero otros contendrán mucha información. Un ejemplo claro de este modelo es el Large Hadron Collider. Durante cada experimento 150 millones de sensores generan 40 millones de medidas por segundo. Se detectan 600 millones de colisiones de partículas por segundo. Esto son 500 EB al día. Se hace una selección de las colisiones poco comunes y más informativas y el volumen baja hasta los 25 PB anuales.

Metodologías

Las metodologías utilizadas en Big Data son muy variadas. Van desde el artesano de Big Data que analiza los datos manualmente, y que a cada resultado que obtiene, genera un nuevo análisis, hasta complejas redes neuronales u otros sistemas de clasificación de patrones.

Si queréis profundizar un poco, y sois suficientemente valientes, os recomiendo leer este informe. Aquí encontraremos técnicas de procesado como el Procesado del Lenguaje Natural o Procesado de Imagen; técnicas de clasificación de patrones, como Test A/B, redes neuronales o algoritmos genéticos; técnicas de reducción de información  como fusión de datos o cálculo de variables; o técnicas de estimación como filtrado de partículas o metodologías Bayesianas. Para alguien que como yo, ha estado estudiando el doctorado en un departamento de procesado de señal, todos estos conceptos me suena un poco “eróticos”.

Si todas estas palabrotas anteriores te suenan complejas… te equivocas: son muy complejas.

Uso práctico

Para finalizar, estamos todavía en pañales. Es una moda y todavía tiene que demostrar que está aquí para quedarse. Hablamos de una iniciativa costosa y con riesgos elevados, ya que sus frutos pueden ser nulos.

Negocio debe ser el gran impulsor de este tipo de iniciativas, pero conociendo los riesgos y los costes derivados. Hay dos posibles vías de fracaso:

  • Un departamento de TI que “le coma el tarro” a negocio para iniciar una iniciativa como esta.
  • Un departamento de negocio que se tire de lleno a la piscina sin conocer los costes y riesgos reales.

En este tipo de análisis a veces es mejor empezarlo poco a poco. Hacer una prueba de concepto con un objetivo moderado y con cantidades de información reducidas. Si el resultado es bueno, entonces podremos ser más ambiciosos y aumentar el alcance.

 

Big Data

About author

Jose M. Huerta

Jose es Gestor de Proyectos y Gestor de Servicios en Mallorca. Es Ingeniero de Telecomunicaciones y obtuvo el Master of Advanced Studies durante su etapa como investigador. Pero no tardó en abandonar ese mundo y meterse de cabeza en el mundo de las Tecnologías de la Información. Está certificado como ITIL Expert y va en camino de certificarse como PMP. Tiene amplia experiencia en gestión de servicios, clásica e integrada con desarrollo, gestión de proyectos, usando metodologías clásicas y ágiles, gestión de programas y portfolios, gestión de grandes grupos de personas, localizadas y off-shore, sin dejar de perder de vista el lado técnico y freak del sector. Ha trabajado en varias empresas del sector con distintos roles en áreas tanto de gestión de servicios de soporte como de equipos de desarrollo. Actualmente trabaja en Idiso, empresa de servicios de distribución hotelera, como responsable del equipo de desarrollo web.

No comments

Te puede interesar...