
Si hay un área de tecnología de información que está teniendo un crecimiento vertiginoso es el del BigData. Gracias al trabajo de multitud de compañías y desarrolladores aportando en modo open source el stack de software relacionado con Big Data también va quedando obsoleto fruto de la continua evolución de las herramientas y necesidades del mercado.
Big Data Stack 1.0
El primer stack o set de componentes de software necesarios para crear o completar una plataforma sin necesidad de añadidos para soportar aplicaciones, denominado Hadoop, se basaba en el software de los gigantes de Internet (Google, Yahoo, Facebook) parte del cual se hicieron públicos hace una década. El núcleo del primer stack Hadoop se componía de GFS / HDFS + MapReduce + Bigtable / HBase + MapReduce. Estas tecnologías permitieron a las startups de Internet escalar su infraestructura con hardware no especializado pero con el tiempo los problemas y necesidades comenzaron a acumularse a pesar de las continuas actualizaciones y versiones adaptadas.

Big Data Stack 2.0
El Google File System (GFS) es un gran sistema distribuido de almacenamiento pero en cuanto se empieza a hacer uso intendivo de metadatos llegamos a un problema SPF (Single Point of Failure). MapReduce es muy resistente pero lleva mucho tiempo reiniciar las caídas. Debido a esto en Google empezaron a diseñar una versión 2.0 de su stack Big data. Veamos las principales características de estas herramientas:
Colossus (GFS II) será la evolución del Google File System. Cada data center tienen su propio cluster Colossus con suficientes discos para dar soporte a miles de usuarios concurrentes de BigQuery. Colossus también gestiona la replicación, recuperación de discos y gestión distribuida (solucionando el problema de SPF). Y es lo suficientemente rápido como para permitir a BigQuery un rendimiento similar a muchas bases de datos en memoria, siendo mucho más económico, aun siendo una infraestructura altamente paralelizada, escalable, duradera y eficiente. BigQuery aprovecha el formato de almacenamiento columnar ColumnIO y el algoritmo de compresión para almacenar datos en Colossus de la manera más óptima para leer grandes cantidades de datos estructurados. Colossus permite a los usuarios de BigQuery escalar a decenas de petabytes en almacenamiento sin problemas, y sin necesidad de añadir recursos de hardware mucho más caros, típico con la mayoría de las bases de datos tradicionales.
Megastore es un nuevo sistema de almacenamiento desarrollado para satisfacer los requisitos de los servicios interactivos online. Megastore combina la escalabilidad de un almacén de datos NoSQL con la conveniencia de un RDBMS tradicional de una manera novedosa, proporcionando garantías de consistencia sólida y alta disponibilidad. Proporciona semántica ACID (Atomicidad, Consistencia, Aislamiento y Durabilidad) completamente serializable dentro de particiones granulares de datos. Este particionamiento nos permite replicar de forma síncrona cada escritura a través de una red con latencia razonable y soportar una conmutación continua entre datacenters. El Megastore aprovecha el algoritmo de replicación Paxos.
Cloud Spanner es el primer y único servicio de base de datos relacional que es fuertemente consistente y escalable horizontalmente. Con Cloud Spanner podemos disfrutar de todos los beneficios tradicionales de una base de datos relacional: transacciones ACID, esquemas relacionales (y cambios de esquema sin tiempo de inactividad), consultas SQL, alto rendimiento y alta disponibilidad. Sin embargo, a diferencia de cualquier otro servicio de base de datos relacional, Cloud Spanner se escala horizontalmente, hasta cientos o miles de servidores, por lo que puede manejar una mayor cantidad de cargas de trabajo transaccionales. Con la escalabilidad automática, la replicación de datos síncrona y la redundancia de nodos, Cloud Spanner ofrece hasta un 99.999% de disponibilidad para sus aplicaciones de misión crítica. De hecho, el servicio Spanner interno de Google ha estado manejando millones de consultas por segundo de muchos servicios de Google durante años.
Cloud Dataflow es un servicio de gestión completo para ejecutar pipelines de procesamiento de datos en paralelo. Se componen de una serie de SDKs para construir pipelines para procesamiento de datos en batch o streaming.
FlumeJava. MapReduce y sistemas similares facilitan significativamente la tarea de escribir código paralelo de datos. Sin embargo, muchos cálculos del mundo real requieren un canal de MapReduces, y la programación y la gestión de estos pipelines puede ser difícil. De ahí FlumeJava, una biblioteca de Java que facilita el desarrollo, la prueba y la ejecución eficiente de pipelines de datos en paralelo. En el núcleo de la librería FlumeJava hay un par de clases que representan colecciones paralelas inmutables, cada una de las cuales soporta un número de operaciones para procesarlas en paralelo. Las colecciones paralelas y sus operaciones presentan una abstracción simple, de alto nivel y uniforme sobre diferentes representaciones de datos y estrategias de ejecución. Para permitir que las operaciones paralelas se ejecuten de manera eficiente, FlumeJava retrasa su evaluación, en lugar de construir internamente un gráfico de flujo de datos del plan de ejecución. Cuando finalmente se necesitan los resultados finales de las operaciones paralelas, FlumeJava optimiza primero el plan de ejecución y, a continuación, ejecuta las operaciones optimizadas en primitivas subyacentes apropiadas (por ejemplo, MapReduces). La combinación de abstracciones de alto nivel para datos en paralelo y el nivel de procesamiento, evaluación y optimización diferida y primitivas paralelas eficientes proporciona un sistema fácil de usar que se aproxima a la eficiencia de los pipelines optimizados a mano. FlumeJava está en uso activo por cientos de desarrolladores de pipelines dentro de Google.
Dremel es un sistema de consulta ad-hoc escalable e interactivo para el análisis de datos anidados de sólo lectura. Combinando árboles de ejecución multinivel y un diseño de datos columnar, es capaz de ejecutar consultas de agregación sobre tablas de billones de filas en cuestión de segundos. El sistema se escala a miles de CPUs y petabytes de datos, y tiene miles de usuarios en Google.
Y sí, no sólo de Google, también vemos propuestas para resolver el gran problema de big data con grandes productos de otros innovadores como Cloudera Impala, Redshift de Amazon, Apache Drill, Presto de Facebook, y más.

What do you think?
buena pagina pero quiero saber como o donde comprarlo y ocuparlo en el movil
Desde Baoss ofrecemos productos y soluciones a medida para empresas y organizaciones. Para particulares puedes buscar en internet por herramientas de análisis de datos y podrás acceder una serie muy variada de oferta dependiendo tus necesidades y presupuesto.
El avance tecnológico es indudablemente de gran ayuda en los diferentes sectores o áreas de la vida real. Me gustaría saber el uso del big Data en las exploraciones mineras,dando un ejemplo real.
Estimado Alberto, gracias por tu comentario. Para analizar un caso real en el sector que comentas puedes ponerte en contacto con nosotros a través del formulario que encontrarás en la página de Contacto y con mucho gusto estudiaremos tu caso.
Creo que también ha sido muy útil en las predicciones de las ocurrencias de eventos de la naturaleza, como los huracanes, los terremotos, maremotos, las trombas marinas, incluso creo que con los suficientes datos podrán predecir los incendios forestales
Hola muy buen día, soy estudiante de Ciencias de la Tierra y el Big Data es uno de los temas que más se están manejando en la actualidad, pues sus aplicaciones son realmente ilimitadas- Me gustaría que me compartieran un poco de sus conocimientos a manera breve y general sobre las aplicaciones en casos de la vida real que se estén llevando a cabo en sectores como la industria minera, la industria petrolera y algunas otras aplicaciones en la solución de problemas ambientales.
.Espero me puedan compartir un poco de su información, sin duda sería interesante aplicarlo en la solución de problemas de mi área de estudio y de la misma forma compartirlo con mis colegas de profesión, pues es necesario divulgar estos conocimientos para que lleguen a más personas y comiencen a tomarse en cuenta en otras áreas de estudio. Saludos y gracias por su tiempo
Gracias Emiliano por tu comentario y por seguirnos. Iremos publicando nuevos artículos. Suerte en tu carrera!
I am really enjoying the theme/design of your site.
Do you ever run into any browser compatibility issues?
A few of my blog readers have complained about my site not
operating correctly in Explorer but looks great in Firefox.
Do you have any tips to help fix this problem?
Not at all. Thanks!
Hay algún municipio que utilice el big data y que haya mejorado el servicio a la ciudadanía, me podrías compartir esa información
Prácticamente todos los municipios grandes lo llevan utilizando hace años para medir y prever niveles de contaminación, tráfico, turismo, y muchos casos mas.
A través de la Big Data, existe el más pavoroso riesgo, todo lo anterior obvia el mayor peligro implícito en este tipo de tecnologías que hoy por hoy están fuera de control. La posibilidad de controlar, manipular, inducir, orientar a poblaciones enteras en pos de obtener objetivos perversos dirigidos por poderes fácticos ubicados en cualquier parte del mundo. Estamos iniciando un proceso que más temprano que tarde terminará con las democracias occidentales.
[…] http://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] conclusiones obtenidas del estudio masivo de datos ya están revolucionando muchos campos que nada tienen que ver con la empresa o el retail. Por ejemplo: Google y el CDC, el centro de control de enfermedades de Estados Unidos, se aliaron […]
[…] Fuente de información: https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] Referencias: wikipedia.org, pauhortal.net, baoss.es, powerdata.es, mintic.gov.co […]
[…] Y, como decíamos, esta tendencia no solo puede ayudarnos a mejorar las ventas en nuestros negocios, si no que, aplicada a otros sectores, puede mejorar nuestra calidad de vida. La administración pública, el turismo, la sanidad, hacienda… todos ellos disponen de grandes almacenes de datos que con un buen análisis y el uso de las herramientas adecuadas pueden aportar importantes soluciones. Hay ya muchos ejemplos reales de uso de Big Data en este sentido: se integran datos de historiales clínicos con otros de redes sociales para detectar brotes de gripe en tiempo real; se usan datos de tráfico rodado para mejorar la movilidad en las ciudades; o el uso de datos personales (a veces trascendiendo el derecho a la privacidad) para evitar ataques terroristas. Ver más ejemplos aquí. […]
[…] https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] EJEMPLOS: Marketing y ventas son quizá las áreas de mayor aplicación de big data en la actualidad, los datos que se encuentran sirven para entender mejor al cliente. en la salud pública La capacidad de procesamiento de plataformas de análisis de big data nos permite ya descodificar cadenas enteras de ADN en cuestión de minutos y permitirá encontrar nuevos tratamientos y comprender mejor las enfermedades, sus desencadenantes y los patrones de propagación mejoramiento de la seguridad: El sistema de IA creado en el MIT predice el 85% de los ciberataques. Otros ejemplos: Las fuerzas policiales están empezando a utilizar herramientas de big data para dar con criminales e incluso prevenir actividades criminales.Otro ejemplo que lleva años empleándose es en la detección de transacciones fraudulentas con tarjetas de crédito. https://www.sas.com/es_pe/insights/big-data/what-is-big-data.html https://xombit.com/2015/11/big-data-procesar-informacion http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-7-v/ https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]
[…] Lee más ejemplos de Big Data Analytics eficaz aquí. […]
[…] El uso de Big Data: El uso de Big Data nos facilita muchísimo la conexión con posibles compradores y sus intereses, esto nos ayuda a ser […]
Comments are closed.