¿Cuál ha sido el pasado y cuál es el futuro del big data más previsible?

l despliegue de tecnología a nuestro alrededor en los últimos 20 años ha sido enorme. Lo vemos en las noticias todos los días, en la valoración de las empresas de mayor capitalización bursátil,  en el impacto que producen en la sociedad, provocando cambios inesperados en productividad, entretenimiento, puestos de trabajo, formas de relacionarnos…

Sin embargo el interés en las tecnologías tiende a estar vinculado con lo que la gente puede tocar o sentir:  mobile apps, redes sociales, dispositivos wearables, realidad virtual, … Lo curioso es que gran parte de ese éxito se basa en tecnologías ocultas que los usuarios no perciben pero son igualmente imprescindibles como los dispositivos con los que interactúan. Las experiencias de los usuarios se basan en tecnologías de bases de datos y analytics, diseñadas por las empresas que ofrecen esos servicios. Big data es un conjunto de esas tecnologías. Si estableciéramos un símil sería como las cañerías, esas cosas que poca gente  ve pero sin que los servicios básicos no funcionarían. La adopción de las tecnologías emergentes por parte de empresas y corporaciones no ocurre de la noche a la mañana.

¿Cómo nace el fenómeno Big Data?

En los primeros años del ecosistema big data se produjo una relación simbiótica entre el conjunto de compañías de Internet. En particular, Google, Yahoo, Facebook, Twitter, LinkedIn, … que eran tanto usuarias masivas como creadoras del conjunto de tecnologías Big Data.  Estas empresas se encontraron con un inesperado volumen de datos, no disponían de infraestructura necesaria pero estaban dispuestas a contratar a los mejores talentos. Así que empezaron a construir las tecnologías que necesitaban. El espíritu open source avanzaba y pronto estas nuevas tecnologías fueron compartidas con el resto del mundo. Con el tiempo, muchos de los ingenieros dejaron las grandes compañías para empezar sus propias startups relacionadas con big data.

Algunas empresas nativas digitales, incluyendo algunos «incipientes unicornios» comenzaron a tener las mismas necesidades de las grandes multinacionales de Internet, por lo que se convirtieron en los early adopters de las tecnologías big data. Los éxitos tempranos cosechados derivaron en una mayor actividad de incubación empresarial acompañados de mayores fondos de capital riesgo, y así es como nació todo.

Despegue y transición

Avanzando en el tiempo unos años nos encontramos  ahora con una oportunidad mucho mayor, pero también más compleja: la adopción por parte de un mayor conjunto de empresas, desde PYMES a grandes multinacionales. Estas empresas, al contrario que las nativas digitales no disponen del lujo de empezar desde cero. También tienen mucho más que perder. En la mayoría de empresas la tecnología existente cumple con el básico requerido. Cierto es que no es una tecnología «para tirar cohetes» y que muchos profesionales entienden que tendrán que modernizar los sistemas tarde o temprano, pero tampoco están dispuestos a hacer tabla rasa y reemplazar sus sistemas críticos de la noche a la mañana. Cualquier evolución siempre requiere de procesos, presupuestos, gestión de proyectos, pilotos, despliegues por departamentos/unidades, auditorías de seguridad, etc.

Las grandes corporaciones son comprensiblemente cautelosas a la hora de entregar las partes críticas de sus infraestructuras a startups jóvenes. Y a pesar de las penas de los emprendedores, muchas empresas todavía son reacias a mover sus datos a la nube, al menos a una cloud pública.

Otra clave fundamental es que el éxito del Big Data no se debe a la implementación de una única pieza de software (como Hadoop por ejemplo) sino que requiere la alineación de gente, procesos, y montaje de una serie de tecnologías relacionadas. Se necesita primero capturar los datos, limpiarlos, preparar las queries, analizar los insights, y finalmente, preparar las visualizaciones. Parte de estas tareas las ofrecen determinados productos, otras requieren todavía de pensamiento humano. Todo tiene que estar bien integrado. En definitiva, para que esto funcione, el conjunto de la organización, desde el comité de dirección, tiene que estar trabajando al unísono hacia el mismo destino: transformar la cultura de la empresa hacia una centrada en datos, donde big data no sea el último proyecto sino «la forma de trabajar». Y para que llegue esto queda mucho trabajo por delante.

¿Dónde estamos ahora?

Estamos saliendo de la incubación y entrando en la fase de maduración del Big Data. En la parte de infraestructura, ya ha pasado una década desde que Google publicara los papers sobre MapReduce y Doug CuttingMike Cafarella crearan Hadoop a partir de BigTable.  Aunque se ha avanzado muchísimo en los últimos dos o tres años resolviendo algunos problemas de raiz, todavía se están produciendo importantes innovaciones, gracias en mayor parte al avance en la actividad open source.  2015 ha sido sin duda el año de Apache Spark, el framework open source que aprovecha el procesamiento in-memory. Desde entonces, los grandes en Big Data, desde IBM a Cloudera han apostado por Spark, dándole mayor credibilidad al proyecto. La irrupción de Spark ha sido significativa ya que ha encarado los problemas principales que estaban ralentizando la adopción de Hadoop. Spark es mucho más rápido, fácil de programar, y está especialmente preparado para machine learning. ¿Porqué es esto tan importante?

Antes de intentar adivinar hacia donde se dirige el futuro del big data, mencionar otros nuevos frameworks prometedores siguen emergiendo y ganando tracción:  Flink, Ignite, Samza, Kudu, etc.  Algunos expertos del sector opinan que Mesos (el framework que permite  “programar contra tu datacenter como si fuera un único pool de recursos») libera de la necesidad de añadir Hadoop.

Incluso en el mundo de las bases de datos, que parecía que tenía más actores de los que el mercado pudiera sostener, un montón de cosas están sucediendo. La maduración de bases de de datos gráficas (Neo4j), el lanzamiento de bases de datos especializadas (series temporales en InfluxDB), o CockroachDB, una nase de datos inspirada en Google Spanner, que promete lo mejor de los mundos SQL y NoSQL.  Los data warehouses también están evolucionando (ver video del CEO de Snowflake, data warehouse en cloud).

¿Hacia dónde se dirige el futuro en Big Data?

La gran tendencia Big Data analytics en los últimos meses está siendo focalizada en la inteligencia artificial (IA), en sus varias formas y sabores. La tendencia lógica es, una vez cubierta la parte de captura e infraestructura, buscar ayuda a la hora de analizar conjuntos de datos masivos y predecir insights.

Gran parte del motivo de la reciente resurrección de la IA es debido al Big Data. Los algoritmos detrás del deep learning (área de IA que más atención recibe últimamente) fueron creados en su gran mayoría hace décadas, pero hasta ahora no habían podido aplicarse a grandes volúmenes de datos de manera suficientemente rápida y a unos costes asumibles. Al fin han podido alcanzar su potencial. La relación entre la IA y el Big Data es más cercana que nunca y están destinados a ir de la mano en el futuro.

A su vez, la IA está ayudando a las soluciones Big Data a cumplir su promesa. La mirada centrada en machine learning es la siguiente evolución del Big Data. Ahora que tengo todos estos datos disponibles, ¿qué valor voy a extraer de ellos? Este es el momento en el que tradicionalmente se incorporaban los data scientists ofreciendo modelos para dar sentido a los datos. Pero cada vez más, la inteligencia de las máquinas está ayudando a los científicos de datos. Productos de software que permiten extraer fórmulas matemáticas, o recomendar automáticamente el modelo de datos más adecuado para extraer los mejores resultados están en sus versiones beta y serán pronto centro de atención de directivos y especialistas. En un próximo artículo repasaremos las empresas más activas en IA que ofrecen productos relacionados con la automatización de identificación de entidades complejas y análisis predictivos.