Herramientas big data

Herramientas Big Data más usadas en la actualidad

Número de visualizaciones

POR

Rafael Marín
Ingeniero Técnico en Informática de Sistemas. Amante de las nuevas tecnologías, la creación de aplicaciones y el desarrollo web. Desarrolla sus habilidades en el Departamento de Informática de INESEM.

¿Conoces las herramientas Big Data más utilizadas actualmente?

Diariamente, la cantidad de información que se almacena, gestiona y comparte es inmensa.

Los datos no tienen sentido hasta que se convierten en información y conocimiento útiles que ayuden para la toma de decisiones.

En la persecución de este propósito existen varias herramientas Big Data disponibles en el mercado.

Estas herramientas Big Data ayudan a almacenar, analizar, reportar y multitud de funciones más con los datos que gestionan.

big-data

A continuación voy a enumerar las principales herramientas Big Data usadas actualmente para el análisis de datos masivos, la mayoría de ellas open source.

Apache Hadoop

Apache Hadoop es un framework de software empleado para un sistema de archivos en clúster (HDFS) y el manejo de big data.

Procesa conjuntos de datos de big data por medio del modelo de programación MapReduce. Es open source, está escrito en Java y proporciona soporte multiplataforma.

apache-hadoop

Sin duda, esta es la herramienta big data más importante. Algunas de las empresas que utilizan Hadoop son Amazon, IBM, Intel, Microsoft y Facebook.

Apache Spark

Apache Spark es la alternativa, y en muchos aspectos el sucesor, de Apache Hadoop. Fue creado para abordar las deficiencias de Hadoop y lo hace increíblemente bien.

Por ejemplo, puede procesar datos por lotes y datos en tiempo real, y funciona 100 veces más rápido que MapReduce.

apache-spark

Además, Spark trabaja con HDFS, OpenStack y Apache Cassandra agregando otra capa de versatilidad a las operaciones de Big Data en cualquier negocio.

HPCC

HPCC (High-Performance Computing Cluster) es una solución completa de big data sobre una plataforma de supercomputación altamente escalable.

hpcc

Es una herramienta de código abierto y es un buen sustituto de Hadoop y algunas otras plataformas de Big Data.

Cloudera

Cloudera es la plataforma moderna de big data más rápida, fácil y altamente segura.

cloudera

Permite a cualquier persona obtener datos en cualquier entorno dentro de una plataforma única y escalable.

Se puede implementar y administrar Cloudera en AWS, Microsoft Azure y Google Cloud Platform.

Apache Storm

Apache Storm es una plataforma multiplataforma que ofrece procesamiento de flujo distribuido y un framework computacional en tiempo real tolerante a fallas.

Esta herramienta es gratis y de código abierto. Además permite el procesamiento distribuido por lotes de flujos de datos ilimitados.

apache-storm

Empresas como Groupon, Yahoo o Alibaba utilizan Apache Storm en la actualidad.

MongoDB

Este es el SGBD no relacional (NoSQL) más utilizado en la actulidad.

Está orientado a ficheros y el almacenamiento que utiliza es en estructuras BSON que facilitan la integración de los datos.

mongodb

MongoDB es utilizado en la actualdad por empresas tan importantes como Google, Facebook, eBay o Adobe.

Cassandra

Cassandra es un SGBD no relacional (NoSQL) que utiliza para almacenar la información una estructura clave-valor.

Además, es una herramienta que es distribuida y masivamente escalable.

cassandra

Empresa como Facebook, Twitter, Instagram, Spotify o Netflix utilizan Cassandra como SGBD en sus operaciones.

Además, dispone de un lenguaje propio para las consultas que se conoce como CQL (Cassandra Query Languaje).

Pentaho

Pentaho proporciona herramientas de big data para extraer, preparar y combinar datos.

pentaho

Ofrece visualizaciones y análisis que cambian la forma de administrar cualquier negocio. Esta herramienta Big Data permite convertir grandes datos en grandes ideas.

Apache Flink

Apache Flink, es un motor distribuido de procesamiento de flujo para el cálculo con estado sobre los datos.

Esta herramienta big data es tolerante a fallas y proporciona varias API en diferentes niveles de abstracción.

apache-flink

La fantástica especificación de esta herramienta es que se puede ejecutar en todos los entornos de clúster conocidos como Hadoop YARN, Apache Mesos y Kubernetes.

Rapidminer

Rapidminer es una herramienta multiplataforma que ofrece un entorno integrado para la ciencia de datos, el aprendizaje automático y el análisis predictivo.

Tiene varias versiones de ediciones propietarias pequeñas, medianas y grandes, así como una edición gratuita que permite 1 procesador lógico y hasta 10,000 filas de datos.

rapidminer

Hitachi, BMW o Samsung son ejemplos de empresas que utilizan Rapidminer.

Apache SAMOA

SAMOA (Scalable Advanced Massive Online Analysis) es una plataforma de código abierto para minería de flujos de datos masivos y aprendizaje automático.

apache SAMOA

Permite crear algoritmos de aprendizaje automático distribuido (ML) y ejecutarlos en múltiples DSPE (motores de procesamiento de flujo distribuido).

La alternativa más cercana de Apache SAMOA es la herramienta BigML.

Knime

KNIME es una herramienta de código abierto que se utiliza para informes empresariales, integración, investigación, CRM, minería de datos, análisis de datos, minería de texto e inteligencia empresarial.

Es compatible con los sistemas operativos Linux, OS X y Windows.

knime

Se puede considerar como una buena alternativa a SAS. Algunas de las principales empresas que utilizan Knime son Comcast, Johnson & Johnson, Canadian Tire, etc.

Qubole

Qubole es una plataforma de Big Data independiente y que se gestiona, aprende y optimiza por sí solo a partir de su uso.

Esto permite que el equipo de datos se concentre en los resultados comerciales en lugar de administrar la plataforma.

qubole

Warner o Adobe son ejemplos de empresas que utilizan Qubole.

Apache Hive

Apache Hive es un software de código abierto de big data.

Permite a los programadores analizar grandes conjuntos de datos en Hadoop.

apache-hive

Ayuda a consultar y administrar grandes conjuntos de datos de forma muy rápida.

Para su funcionamiento utiliza dos tareas principales, Map y Reduce.

R

R es uno de los paquetes de análisis estadísticos más completos. Es un entorno de software de código abierto, gratuito, multi-paradigmático y dinámico.

Está escrito en lenguajes de programación C, Fortran y R. Es ampliamente utilizado por estadísticos y mineros de datos.

R

Sus casos de uso incluyen análisis de datos, manipulación de datos, cálculo y visualización gráfica.

Para utilizar R se debe utilizar su IDE de desarrollo, llamado R Studio.

Herramientas adicionales

Además de estas existen muchas más herramientas Big Data en el mercado. Algunas de ellas son:

  • Lumify
  • Tableau
  • Neo4J
  • Datawrapper
  • Talend
  • Elasticsearch
  • Teradata

En definitiva, depende del objetivo perseguido se puede elegir entre una herramienta big data u otra pero cualquiera de las presentadas cumplirá con creces las expectativas.

El Big Data ha llegado para quedarse y sin duda es el presente pero sobre todo el futuro sobre el cual basar las estrategias comerciales de cualquier empresa.

Por tanto, saber utilizar estas herramientas big data (al menos alguna/s de ellas) y extraer información valiosa de ellas será la diferencia entre el éxito o fracaso empresarial.

Si te ha gustado este artículo y quieres leer otros escritos por mí, puedes hacerlo aquí.

0

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Descubre MasterClass de INESEM. Una plataforma en la que profesionales enseñan en abierto

Profesionales enseñando en abierto