La generalización de las nuevas tecnologías aplicada a cualquier dispositivo, ha dado lugar a que se genere una gran cantidad de datos, cambiando así el actual paradigma de las fuentes de información y su posterior almacenamiento y procesamiento.

Cosas de la vida cotidiana como caminar con un dispositivo capaz de geoposicionar a su usuario, pagar con una tarjeta de crédito o ver una serie online, generan información susceptible de ser explorada.

A diario en el mundo se generan cerca de 2.5 trillones de bytes de datos. Estas cifras vienen aumentando desde hace años debido a la hiper-conectividad en la que vivimos, inducida por la digitalización, Internet Of Things y las redes sociales.

Los ecosistemas Big Data y Business Intelligence son capaces de capturar, almacenar y manejar grandes volúmenes de datos, poniendo las bases para explorar analíticamente su información, y extraer valor de ellos. Este hecho resulta una verdadera mina de oro para las empresas, que pueden sacar valor de los datos para mejorar procesos, minimizar costes o maximizar los beneficios.

Por ello, es imprescindible poder disponer de herramientas con una considerada potencia para la obtención de datos y su análisis, ahí es donde Powercenter + R toman relevancia en esta entrada.

En nuestro artículo anterior hablamos de R y cómo se integra con otros lenguajes de programación.

¿Qué son Powercenter y R y su relación con los modelos estadísticos?

Powercenter es una herramienta de Data Integration, que entre sus otras funcionalidades, se compone de un potente sistema de extracción de datos que permite conseguirlos desde diferentes fuentes y estructuras. Esto hace que nuestra base de datos sea muy versátil y nos permita integrar la heterogeneidad de las fuentes.

R, por su parte, no es un lenguaje de programación estrictamente, aunque suele ser conocido como tal, sino un conjunto de programas integrados para el manejo de datos, simulaciones, cálculos y realización de gráficos. Es de implementación libre, lo que supone un gran ahorro en el gasto de compra de licencias, y además, al ser de código abierto, ha ido evolucionando a lo largo de los años con aportaciones de su comunidad de desarrollo.

Dentro del mundo estadístico, R es la herramienta idónea, ya que permite manipular los datos de forma rápida y precisa. También posibilita su automatización de forma fácil, gracias a la creación de scripts que automatizan procesos, como por ejemplo, leer datos o hacer operaciones con los datos siempre de forma automática además de ejecutarse en una gran variedad de plataformas.

Usos y beneficios de Powercenter y R

Powercenter y R se hacen más fuertes cuando se unen, ya que a la gran potencia con la que cuenta la herramientas de extracción de datos, se le suma la gran capacidad de cálculo que tiene R para realizar operaciones y el desarrollo de modelos predictivos.

Así, R también se beneficia de esta integración al tomar prestada esa gran capacidad de homogeneización de bases de datos para disponer de diversas fuentes, independientemente de su estructura, para contar con un afluente de información para su procesamiento.

Además, la unión de ambos entornos nos aporta el uso de diversas herramientas de gobernanza del dato que permiten al usuario beneficiarse de la trazabilidad completa de los datos desde su origen.

Powercenter: Casos de uso

El uso de Power Center destaca en proyectos de Business Intelligence, data warehousing, migración e integración de aplicaciones en la nube y data governance, puede ser integrado en estos casos de uso:

  • Migración desde un sistema existente como un mainframe a un nuevo sistema de base de datos.
  • Datawarehousing: mover datos desde múltiples fuentes a un Data Warehouse.
  • Integración de datos de varios sistemas heterogéneos, como bases de datos distintas (como por ejemplo SQL Server y Oracle) y sistemas basados en archivos.
  • Middleware entre dos aplicaciones distintas (como SAP R3, SAP BW, etc.), actuando como adaptador de conectividad.
  • Limpieza de datos.

Componentes

Powercenter es una herramienta que ofrece 4 entornos para la gestión de la aplicación:

  • Powercenter Designer
    • Crea plantillas de carga de datos.
    • Define estructuras de los almacenes y orígenes de datos.
    • Realiza las transformaciones pertinentes sobre los datos.
    • Define fragmentos de código encapsulado y reutilizable.
  • Powercenter Workflow Manager, nos permite:
    • Definir las instancias de los procesos de carga.
    • Crear instancias reutilizables.
    • Definir las estrategias de ejecución del proceso de carga.
    • Lanzar ejecuciones de los procesos.
    • Definir las conexiones con los distintos entornos de los almacenes de datos.
    • Programar ejecuciones de procesos en su planificador.
  • Powercenter Repository Manager, permite gestionar:
    • El sistema de directorios de trabajo.
    • Creación y permisos sobre los usuarios.
    • Traspaso de recursos entre los distintos repositorios.
  • Powercenter Workflow Monitor, nos permite:
    • Visualizar las ejecuciones de los procesos de carga.
    • Programar y desprogramar procesos.
    • Revisar logs de carga.
    • Visualización de estadísticas de carga.