Qué es Big Data

“En el sector de tecnologías de la información y la comunicación es una referencia a los sistemas que manipulan grandes conjuntos de datos” (ver wikipedia) Big data son sistemas, que permiten el tratamiento y análisis de gran cantidad de datos, algo que resulta imposible hacer con las herramientas analíticas convencionales. Big data es un término aplicado a grandes conjuntos de datos que requieren de un software específico para ser capturados, gestionados y procesados en un tiempo razonable. Hablamos de tamaños comprendidos entre decenas o cientos de terabytes hasta varios petabytes de datos en un único conjunto de datos (data set). Para entender de qué hablamos, ver los siguientes datos:

Gigabyte = 1,000,000,000 (con estas magnitudes nos movemos diariamente) Terabyte = 1,000,000,000,000 (esto ya lo vemos como algo muy grande) (Pues bien para hablar de BIGDATA, no nos valen las anteriores medidas, debemos de irnos a las siguientes) Petabyte = 1,000,000,000,000,000 Exabyte = 1,000,000,000,000,000,000

La importancia de este sector deriva de que en los dos últimos años, el crecimiento de datos ha aumentado de forma exponencial por el aumento de páginas web, aplicaciones de imagen y vídeo, redes sociales, los dispositivos móviles, apps, sensores de SmartCities, entre otros ámbitos. En la actualidad, generamos en torno a los 2,5 trillones de bytes de datos diarios. Esto ha provocado que el 90% de los datos en el mundo de hoy se ha creado en los últimos dos años. La razón es que generamos gran cantidad de información tanto manual como automática: los sensores utilizados para recopilar información sobre el clima, los mensajes a las redes sociales, fotos y videos digitales, registros de transacciones de compra y las señales del GPS del teléfono celular, por nombrar algunos, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., Según IBM, "se podría decir que si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso, ahí es nada…."

Porqué generamos tanta información.

Esta generación masiva la encontramos en diversas fuentes:

Las empresas, mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., Cada vez esta información es más importante en la toma de decisiones de las mismas.
El sector público. En los países “del primer mundo”, se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc., y que cada vez más debido a la globalización, acuerdos entre gobiernos, etc. se comparte más entre países.
Transacciones financieras realizadas en línea o por dispositivos móviles,
Redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos),
Información recogida o generada por máquinas o sensores. Ej. sensores digitales, sensores en medidores eléctricos, sensores de temperatura, humedad, presión admosférica, contaminación, ect.. Se prevé que el número crezca en un 30% anualmente.

De acuerdo con un estudio realizado por Cisco (ver mas), "entre el 2011 y el 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta. Las naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el 2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto". El siguiente gráfico nos muestra las fuentes de generación del Big Data.

Imagen obtenida de IBM

Según IBM un sistema big data debe contemplar tres parámetros: Volumen, velocidad y variedad.

Volumen: El sistema debe permitir almacenar gran cantidad de informacion, como hemos comentado terabytes, casi ni se considera Big Data, hablamos de petabytes o exabytes de información.

Velocidad: En los procesos en los que el tiempo cuenta, como por ejemplo descubrir fraudes, los grandes volúmenes de datos deben servir a las empresas para una rápida toma de decisiones.

Por tanto el sistema debe dar respuestas rápidas y dependiendo de qué estemos hablando respuestas de segundos pueden ser inservibles. Ej. toma de decisiones de GPS, máquinas industriales, control de navegación, alertas, etc. En algunos casos no importaría esperar minutos, pero como digo depende de donde estemos implementando el sistema los tiempos de respuesta serán unos u otros y en muchos casos hablamos de respuestas de pocos segundos.

Variedad: Esto es muy importante ya que los grandes volúmenes de datos totalmente heterogéneos que incluyen cualquier tipo de datos, estructurados y no estructurados como texto, datos de sensores, audio, vídeo, secuencias de clic o archivos de registro, entre otros. Al analizar estos datos juntos se nos abre un campo nuevo y desconocido hasta ahora con técnicas que deben ser estudiadas para obtener los resultados deseados.

. El problema de los grandes volúmenes de datos no es solo cuestión de tamaño, sino también de la diversidad de tipos que nos encontramos. Hasta ahora, no había ninguna manera práctica de explotar esta diversidad de información. Estos sistemas deben de dar respuesta a estas cuestiones.

Conclusiones

En los últimos tiempos, big data ya ha dado pie a un conjunto de nuevas tecnologías de análisis. En internet se encuentran disponibles bastantes herramientas y frameworks de procesamiento de datos, como MapReduce de Google, el Apache Hadoop de código abierto, y sistemas de bases de datos de nueva generación. Empresas como IBM apuestan abiertamente por estos sistemas con herramientas como IBM InfoSphere BigInsights™ e IBM InfoSphere Streams™ Como "la información es poder", el control de sistemas big data gana una gran importancia en nuestra sociedad y sin duda en los próximos años serán sistemas que los profesionales de la informática tendremos que conocer y controlar.

Categorizado en: Informática y TICS