ELT o ETL, ¿qué es mejor?

junio 17, 2019

En el mundo de la gestión de los datos se está produciendo una oleada de tecnologías y metodologías, cada una representada por sus propias palabras de moda y términos. Uno de los debates en cuanto a datos más candentes es la cuestión que me contaba el otro día un científico de datos de Google: ¿qué es mejor ETL o ELT? y cómo se relacionan con los datawarehouses y Data Lakes.

Para intentar clarificar el caos terminológico vamos a repasar cuáles son las diferencias y similitudes entre ETL y ELT, cuál es mejor, y ayudar a descifrar las palabras de moda: data lakes (lagos de datos) y datawarehouses.

Para hacer que los datawarehouses sean más accesibles a las herramientas analíticas tradicionales, los datos pueden organizarse ejecutándolos a través de un proceso de extracción, transformación, carga (ETL).

ETL

ETL es normalmente un proceso continuo y con un flujo de trabajo bien definido. Con una metodología ETL primero extraemos los datos de fuentes de datos homogéneas (bases de datos relacionales o RDBMS) o heterogéneas (los datos se almacenan como ficheros). Luego, los datos se limpian, se enriquecen, se transforman. Las transformaciones pueden incluir la aplicación de cálculos, concatenaciones, anonimizaciones, agregaciones, etc., es entonces cuando finalmente se almacenan en el almacén de datos. En ETL los datos fluyen desde el origen al destino, el motor de transformación de procesos se encarga de cualquier cambio en los datos.

ELT

ELT (Extraer, cargar, transformar) es un método diferente de acercarse al flujo de datos, en el que los datos extraídos se cargan primero en el sistema de destino. Las transformaciones se realizan después de que carguemos los datos en el almacén de datos. En lugar de transformar los datos antes de que se escriban, ELT permite que el sistema de destino realice la transformación. Los datos primero se copian en el data lake y luego se transforman in situ. El ELT generalmente funciona bien cuando el sistema objetivo es lo suficientemente potente como para manejar transformaciones a gran escala. ELT generalmente se usa con bases de datos NOSQL como el clúster de Hadoop, un dispositivo de datos o una instalación en la nube. Las bases de datos analíticas como Amazon Redshift o Google BigQuery se usan a menudo en pipelines ELT porque son altamente eficientes para realizar transformaciones.

Dudas

Hay una serie de otras preguntas clave que deben plantearse al considerar los datawarehouses frente a los data lakes. Preguntas como:

¿Debo primero enmascarar los datos de PII (correo electrónico y direcciones IP) para estándares de privacidad como GDPR, CCPA y HiPPA antes de cargar en un lago o almacén?
¿Cuál es la naturaleza de mis datos? ¿Necesito Real Time o en batch me sirve? ¿Estructurado o no estructurado?
¿Qué pasa con la volatilidad de los datos?
¿Quiénes son las personas que necesitan consultar mi almacén de datos, cuáles son sus habilidades? ¿Cuáles son los tipos de consultas que necesitarán realizar?

Diferencias ETL y ELT

ParámetrosETLELT
ProcesamientoLos datos se transforman en el servidor de almacenamiento intermedio y luego se transfieren al Datawarehouse. Los datos permanecen en el data lake.
Código de usoUsado para:
– Transformaciones de computación intensiva
– Pequeña cantidad de datos
Cantidades grandes de datos
TransformaciónLas transformaciones se realizan en el servidor ETL / área de ensayo.Las transformaciones se realizan en el sistema de destino.
Tiempos de cargaLos datos se cargan primero en el almacenamiento intermedio y luego se mueven al sistema objetivo. Tiempo intensivo.Los datos cargados en el sistema de destino solo una vez. Más rápido.
Tiempos de TransformaciónEl proceso ETL necesita esperar a que se complete la transformación. A medida que crece el tamaño de los datos, aumenta el tiempo de transformación.En el proceso ELT, la velocidad nunca depende del tamaño de los datos.
Tiempos de manteniminetoNecesita altos niveles de mantenimiento ya que necesita seleccionar datos para cargar y transformar.Bajo mantenimiento ya que los datos están siempre disponibles.
Complejidad de implementaciónEn una etapa temprana, es más fácil de implementar.Para implementar el proceso de ELT, la organización debe tener un conocimiento profundo de las herramientas y los skills necesarios.
Soporte para Data warehouseModelo de ETL utilizado para datos locales, relacionales y estructurados.Se utiliza en una infraestructura de cloud escalable que admite orígenes de datos estructurados y no estructurados.
Soporte Data lakeNo soportado.Permite usar un Data lake con datos no estructurados.
ComplejidadEl proceso ETL carga solo los datos importantes, como se identificaron en el momento del diseño.Este proceso implica el desarrollo desde la salida hacia atrás y la carga de solo datos relevantes.
CostesCostes elevados para pequeñas y medianas empresas.Bajos costes de entrada utilizando plataformas de Software as a Service.
BúsquedasEn el proceso de ETL, tanto los hechos como las dimensiones deben estar disponibles en el área de preparación.Todos los datos estarán disponibles porque la extracción y la carga se producen en una sola acción.
AgregacionesAumento de la complejidad con la cantidad adicional de datos en el conjunto de datos.El poder de la plataforma de destino puede procesar una cantidad significativa de datos rápidamente.
CálculosSobrescribe la columna existente o necesidad de adjuntar el conjunto de datos y empujar a la plataforma de destino.Permite agregar fácilmente la columna calculada a la tabla existente.
MadurezEl proceso se utiliza desde hace más de dos décadas. Está bien documentado y las mejores prácticas fácilmente disponibles.Concepto relativamente nuevo y complejo de implementar.
HardwareLa mayoría de las herramientas tienen requisitos de hardware únicos que son caros.En formato SaaS el coste de hardware no es un factor crucial.
Soporte para datos no estructuradosEn su mayoría soporta datos relacionalesSoporte para datos no estructurados fácilmente disponibles.

Resumen

La conclusión es que el lago de datos tiene un potencial casi ilimitado, pero requiere unos conocimientos elevados para llevar a cabo la serie de transformaciones antes de lograr tener la suficiente calidad como para sacar provecho a los datos almacenados. Un datawarehouse, por el contrario, requiere una inversión significativa por adelantado, pero a cambio ofrece la capacidad de analizar todo fácilmente, y las habilidades que se requieren para consultarlo (generalmente SQL) suelen ser más fáciles de encontrar entre el equipo de analistas.

Tags

What do you think?

What do you think?

22 Comments:
octubre 17, 2019

buena pagina pero quiero saber como o donde comprarlo y ocuparlo en el movil

noviembre 21, 2019

Desde Baoss ofrecemos productos y soluciones a medida para empresas y organizaciones. Para particulares puedes buscar en internet por herramientas de análisis de datos y podrás acceder una serie muy variada de oferta dependiendo tus necesidades y presupuesto.

octubre 25, 2019

El avance tecnológico es indudablemente de gran ayuda en los diferentes sectores o áreas de la vida real. Me gustaría saber el uso del big Data en las exploraciones mineras,dando un ejemplo real.

noviembre 21, 2019

Estimado Alberto, gracias por tu comentario. Para analizar un caso real en el sector que comentas puedes ponerte en contacto con nosotros a través del formulario que encontrarás en la página de Contacto y con mucho gusto estudiaremos tu caso.

diciembre 17, 2019

Creo que también ha sido muy útil en las predicciones de las ocurrencias de eventos de la naturaleza, como los huracanes, los terremotos, maremotos, las trombas marinas, incluso creo que con los suficientes datos podrán predecir los incendios forestales

febrero 2, 2020

Hola muy buen día, soy estudiante de Ciencias de la Tierra y el Big Data es uno de los temas que más se están manejando en la actualidad, pues sus aplicaciones son realmente ilimitadas- Me gustaría que me compartieran un poco de sus conocimientos a manera breve y general sobre las aplicaciones en casos de la vida real que se estén llevando a cabo en sectores como la industria minera, la industria petrolera y algunas otras aplicaciones en la solución de problemas ambientales.

.Espero me puedan compartir un poco de su información, sin duda sería interesante aplicarlo en la solución de problemas de mi área de estudio y de la misma forma compartirlo con mis colegas de profesión, pues es necesario divulgar estos conocimientos para que lleguen a más personas y comiencen a tomarse en cuenta en otras áreas de estudio. Saludos y gracias por su tiempo

febrero 21, 2020

Gracias Emiliano por tu comentario y por seguirnos. Iremos publicando nuevos artículos. Suerte en tu carrera!

mayo 1, 2020

I am really enjoying the theme/design of your site.

Do you ever run into any browser compatibility issues?
A few of my blog readers have complained about my site not
operating correctly in Explorer but looks great in Firefox.
Do you have any tips to help fix this problem?

mayo 11, 2020

Not at all. Thanks!

junio 6, 2020

Hay algún municipio que utilice el big data y que haya mejorado el servicio a la ciudadanía, me podrías compartir esa información

junio 11, 2020

Prácticamente todos los municipios grandes lo llevan utilizando hace años para medir y prever niveles de contaminación, tráfico, turismo, y muchos casos mas.

octubre 18, 2020

A través de la Big Data, existe el más pavoroso riesgo, todo lo anterior obvia el mayor peligro implícito en este tipo de tecnologías que hoy por hoy están fuera de control. La posibilidad de controlar, manipular, inducir, orientar a poblaciones enteras en pos de obtener objetivos perversos dirigidos por poderes fácticos ubicados en cualquier parte del mundo. Estamos iniciando un proceso que más temprano que tarde terminará con las democracias occidentales.

10 Trackbacks:

[…] conclusiones obtenidas del estudio masivo de datos ya están revolucionando muchos campos que nada tienen que ver con la empresa o el retail. Por ejemplo: Google y el CDC, el centro de control de enfermedades de Estados Unidos, se aliaron […]

[…] Fuente de información: https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]

[…] Referencias: wikipedia.org, pauhortal.net, baoss.es, powerdata.es, mintic.gov.co […]

[…] Y, como decíamos, esta tendencia no solo puede ayudarnos a mejorar las ventas en nuestros negocios, si no que, aplicada a otros sectores, puede mejorar nuestra calidad de vida. La administración pública, el turismo, la sanidad, hacienda… todos ellos disponen de grandes almacenes de datos que con un buen análisis y el uso de las herramientas adecuadas pueden aportar importantes soluciones. Hay ya muchos ejemplos reales de uso de Big Data en este sentido: se integran datos de historiales clínicos con otros de redes sociales para detectar brotes de gripe en tiempo real; se usan datos de tráfico rodado para mejorar la movilidad en las ciudades; o el uso de datos personales (a veces trascendiendo el derecho a la privacidad) para evitar ataques terroristas. Ver más ejemplos aquí. […]

[…] EJEMPLOS: Marketing y ventas son quizá las áreas de mayor aplicación de big data en la actualidad, los datos que se encuentran sirven para entender mejor al cliente. en la salud pública La capacidad de procesamiento de plataformas de análisis de big data nos permite ya descodificar cadenas enteras de ADN en cuestión de minutos y permitirá encontrar nuevos tratamientos y comprender mejor las enfermedades, sus desencadenantes y los patrones de propagación mejoramiento de la seguridad: El sistema de IA creado en el MIT predice el 85% de los ciberataques.  Otros ejemplos: Las fuerzas policiales están empezando a utilizar herramientas de big data para dar con criminales e incluso prevenir actividades criminales.Otro ejemplo que lleva años empleándose es en la detección de transacciones fraudulentas con tarjetas de crédito. https://www.sas.com/es_pe/insights/big-data/what-is-big-data.html https://xombit.com/2015/11/big-data-procesar-informacion http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-7-v/ https://www.baoss.es/10-ejemplos-usos-reales-big-data/ […]

[…] Lee más ejemplos de Big Data Analytics eficaz aquí. […]

[…] El uso de Big Data: El uso de Big Data nos facilita muchísimo la conexión con posibles compradores y sus intereses, esto nos ayuda a ser […]

Comments are closed.

More notes