Los cloud públicos proveen un portafolio de servicios más completo, seguro, escalable y efectivo en costo, para analizar y generar valor a partir de sus datos. Es una revolución que está cambiando la forma de hacer Business Intelligence y que permite obtener más fácilmente información de Big Data para potenciar su negocio.
En la nota Seis razones para considerar Analytics en Cloud le recomendamos considerar plataforma de análisis en cloud público porque:
- Es más económica.
- Reduce el time to market.
- Es flexible para crecer o decrecer en función de las demandas del negocio.
- Se basa en servicios de plataforma administrados por los proveedores de cloud, diseñados para entregar los más altos niveles de disponibilidad y simplicidad de la operación.
- Permite escalar de manera granular, simple y rápida.
- Amplia funcionalidad disponible.
En esta nota vamos a profundizar en una de las opciones para implementar plataformas de Analytics en el cloud público: las arquitecturas serveless, las que tienen como característica que no requieren servidores y que permiten construir aplicaciones de BI con costos extremadamente bajos, crecimientos granulares, escalabilidad sin límites, y administración simplificada, lo que tiene como consecuencia que se eliminan restricciones tecnológicas que limitan los proyectos que una empresa puede emprender.
¿Cómo son las tecnologías analíticas sin servidores?
Este concepto refiere a soluciones analíticas en las que los datos son almacenados bajo un modelo de Data Lake* y analizados utilizando herramientas serverless como, por ejemplo, Amazon Redshift Spectrum, Azure Data Lake Analytics o Google Big Query.
Un Data Lake es un repositorio donde se almacenan todos los datos de la empresa en su formato nativo, normalmente archivos u objetos blob. Dentro del Data Lake se encuentran datos en el formato original de su sistema fuente y datos transformados para tareas como reportería, visualización o inteligencia artificial.
Algunas diferencias entre un Data Lake y el modelo tradicional de Data Warehouse es que en el primero:
- Se retienen todos los datos, sin importar si hay un caso de uso definido para ellos.
- Es posible mantener cualquier tipo de datos, sin importar la fuente o esquema.
- Se mantiene un único repositorio para soportar las necesidades de todos los tipos de usuarios.
- Tiene una mayor flexibilidad para adecuarse a los cambios.
Desde el punto de vista tecnológico, un Data Lake se implementa sobre un storage de objetos (u object storage) utilizando tecnologías como Amazon Simple Storage Service (S3), Azure Blob Storage o Data Lake Analytics o Google Cloud Storage que permiten mantener costos de almacenamiento por debajo de USD 30 por Terabyte/mes. Adicionalmente a esto, para el almacenamiento de datos transformados, optimizados para consulta, se requieren de formatos de archivo especializados como Parquet u ORC.
Una vez que la información se encuentra disponible en su Data Lake, las herramientas analíticas serverless como Amazon Redshift Spectrum, Azure Data Lake Analytics o Google Big Query pueden acceder a esta en la forma de una tabla externa para comenzar a realizar consultas sobre los datos, de la misma forma en que se pueden hacer querys sobre bases de datos analíticas tradicionales, y conectar a herramientas de visualización como Tableau, PowerBI o QlikSense.
El pago por las herramientas analíticas serverless es por uso y no por la infraestructura requerida, por lo que pueden tener ventajas de costo muy importantes para el análisis de información que no tiene una carga de acceso continua en el tiempo como, por ejemplo, reportes de venta diarios que se pueden consultar una vez al día y precargar en la herramienta de visualización.
Normalmente, este tipo de tecnologías adopta el modelo de procesamiento paralelo masivo, proveniente del mundo de Big Data, lo que permite descomponer una consulta en otras más pequeñas que se distribuyen entre múltiples servidores trabajando en paralelo, obteniendo tiempos de respuesta mejores que con las arquitecturas tradicionales.
Otra ventaja de este tipo de enfoque es que el crecimiento es granular, ya que solo se paga por la capacidad que se necesita, con lo que se elimina el problema de las tecnologías tradicionales en donde se está obligado a crecer en bloques normalmente grandes, asociados a la capacidad del hardware. Tampoco hay límites de escalabilidad tanto en el almacenamiento de datos como en la capacidad de procesamiento.
Por último, al ser serverless plataformas administradas por los proveedores de nube, se evita la complejidad de administrar servidores, aplicaciones y capacidad, ya que todo esto viene cubierto por los servicios que entrega el cloud.
Sin embargo, la arquitectura de las soluciones es más sofisticada, pues involucra un abanico más amplio de herramientas, y hay que evaluar cuál es la más apropiada a cada caso. Es el arquitecto o ingeniero de datos, quien define qué datos dejar en cada plataforma. En Novis nos hacemos cargo de estas definiciones, simplificándole la vida al usuario final, quien sigue trabajando con sus herramientas de BI, basadas en SQL.
Le invitamos a contactarnos para conversar de sus proyectos.
Autor Patricio Renner, Gerente de Tecnología.
Notas relacionadas: