La idea principal detrás del término Big Data es que en cada vez mayor medida todo lo que hacemos está dejando una huella digital, que podemos usar y analizar. Una huella formada por grandes cantidades de datos de fuentes tanto internas como externas y al alcance también de nuestros competidores. Es una corriente que, nos guste o no, es imparable, y está impactando en los consumidores y transformando la manera en que funcionan los negocios.

Desde el origen de la civilización hasta el año 2003, el ser humano ha generado 5 exabytes de datos. Ahora generamos 5 exabytes cada 2 días… y el crecimiento continúa acelerando Eric Schmidt

El Big Data se sustenta en dos aspectos. Por un lado, la imparable digitalización del mundo, lo que se traduce en la generación de nuevos datos a unas tasas de crecimiento escalofriantes. Por el otro, la creciente habilidad que tenemos ahora de aprovechar y analizar enormes y complejas colecciones de datos.

¿Qué tipo de datos?

Desde la explosión del consumo de contenidos online actividades tan simples como escuchar música o leer un libro ahora están generando datos. Los reproductores digitales de música y los eBooks recopilan información de nuestra actividad. Los smartphones recopilan datos del uso de todo tipo de aplicaciones y de cómo las usamos, los navegadores recogen información de lo que buscamos en nuestros dispositivos. La empresa de nuestras tarjetas de crédito recopila información de qué compramos y dónde lo hacemos. Es difícil imaginar una actividad cotidiana que no genere datos.

También las conversaciones en formato digital quedan grabadas. Lo que empezó con los SMS, foros y los emails hasta la variedad de canales de comunicación que usamos diariamente ahora: Whatsapp, Twitter, Facebook, mensajería instantánea, y demás redes sociales, dejan ahora huellas digitales que quedan registradas.

Datos de fotografías y vídeos. Piense por un momento la cantidad de imágenes que tomamos con nuestros smartphones y cámaras digitales. Subimos a la nube y compartimos cientos de miles de ellas en redes sociales cada segundo. La creciente implantación de cámaras de vigilancia, por otro lado, generan cientos de horas de datos. Por no hablar de Youtube o Netflix, en algunos países estos servicios suponen ya más del 50% del tráfico de Internet.

Datos de sensores. Estamos rodeados por un número cada vez mayor de sensores que recogen y comparten los datos. Desde el bolsillo nuestro smartphone, que contiene un sensor de posicionamiento global por satélite, recoge exactamente donde nos encontramos a cada minuto del día, al acelerómetro, otro sensor que registra la velocidad y dirección a la que nos movemos. Con la inminente llegada del wearable computing y de domótica para el hogar y para los vehículos, la cantidad de sensores y dispositivos interconectados generando datos será todavía mucho mayor a la actualidad.

El Internet de las Cosas. Ahora disponemos de Smart TVs que pueden recoger y procesar datos, tenemos relojes inteligentes, frigoríficos inteligentes, alarmas inteligentes,… Todo ello se engloba dentro del llamado Internet of Things, o el Internet de todos los dispositivos que están interconectados y se comunican entre sí. Ya existen aplicaciones en las que por ejemplo, los datos generados por sensores de tráfico llegan a su despertador, el cual le despierta antes de tiempo para que pueda llegar a esa reunión que tiene programada en su agenda para una hora determinada.

Características del big data

Con toda esa digitalización llega el big data, unos tipos de datos a menudo y, como vimos en un artículo anterior, diferenciados por cuatro uves: volumen, velocidad, variedad y veracidad.

Volumen referido a los vastas cantidades de datos generados cada segundo. No hablamos ni siquiera de Terabytes, sino de Zetabytes o Brontobytes. Si tomamos todos los datos generados en el mundo desde el comienzo hasta 2008, la misma cantidad de datos pronto se generará en tan sólo un minuto. Las herramientas de big data existentes ahora permiten almacenar y analizar esos datos a través de bases de datos de cualquier variedad y que residen en cualquier parte.

La velocidad referida a la rapidez a la que los nuevos datos son generados y trasladados entre los distintos sistemas de información. Piense ahora en los mensajes en redes sociales que se hacen virales, llegando a millones de personas, en cuestión de segundos. La tecnología que disponemos ahora, in-memory analytics, permite analizar esos datos mientras están siendo generados, sin ni siquiera esperar a almacenarlos y procesarlos en bases de datos.

La variedad se refiere a los distintos tipos de datos que podemos recoger. Hasta hace pocos años solamente nos podíamos centrar en datos estructurados, como los financieros, que encajaban en tablas o bases de datos relacionales. Pero hay un problema, más del 80% de los datos generados son no estructurados (texto, imágenes, video, voz,…). Con la tecnología big data ahora podemos analizar las distintos tipologías como mensajes, conversaciones de redes sociales, fotos, datos de sensores, voz-IP,…

La veracidad se refiere al desorden e integridad de los datos. Con la gran diversidad de datos, la calidad y precisión son menos controlables. Por ejemplo, si seguimos un trending topic en Twitter, las diversas formas que pueden seguirse los mensajes: etiquetas, hash, abreviaciones, errores tipográficos, o coloquialismos, y la precisión del contenido hacen que sea muy complejo hacer un seguimiento fiable que cubra todo el espectro de temas. Pero la tecnología de ahora permite trabajar con estas nuevas formas de datos.

Fuentes:
http://www.dazeinfo.com/2014/05/02/rise-big-data-industry-market-worth-53-4-billion-2017/
http://www-01.ibm.com/software/info/internet-of-things/