paint-brush
Comprender cómo funciona el almacenamiento de datos en AWSpor@ramsjha
16,195 lecturas
16,195 lecturas

Comprender cómo funciona el almacenamiento de datos en AWS

por ramsjha4m2023/11/29
Read on Terminal Reader

Demasiado Largo; Para Leer

Explore el mundo del almacenamiento de datos, desde sus conceptos fundamentales hasta la implementación práctica con AWS Redshift. Esta guía completa cubre enfoques de modelado de datos, profundiza en las complejidades de la configuración de AWS Redshift y muestra cómo el almacenamiento de datos encaja perfectamente en el ecosistema más amplio de soluciones de datos, abriendo nuevas posibilidades para el análisis y la inteligencia empresarial.
featured image - Comprender cómo funciona el almacenamiento de datos en AWS
ramsjha HackerNoon profile picture

Este blog cubrirá de manera integral:

(a) ¿Qué es el almacenamiento de datos?

(b) Enfoques de modelado de datos para el almacenamiento de datos

(c) Almacén de datos en AWS y, por último

(d) Almacenamiento de datos para reducir la carga operativa utilizando el Servicio Gestionado.


Entendamos desde una perspectiva sencilla " Qué es un almacén de datos "


Según Wikipedia , un almacén de datos (DW o DWH), también conocido como almacén de datos empresariales (EDW), es un sistema que se utiliza para generar informes y análisis de datos y se considera un componente central de la inteligencia empresarial . Los almacenes de datos son depósitos centrales de datos integrados de una o más fuentes dispares. Almacenan datos actuales e históricos en un solo lugar que se utiliza para crear informes analíticos para los trabajadores de toda la empresa. Esto es beneficioso para las empresas, ya que les permite interrogar y extraer información de sus datos y tomar decisiones.


En términos básicos, es el arte de recopilar, almacenar y proporcionar información de manera eficiente (inteligencia empresarial) para ayudar a una empresa a convertirse en una organización basada en datos. En cierto sentido, es otra base de datos de transacciones, pero optimizada para cargas de trabajo analíticas.



Según el diagrama anterior, los datos se recopilan de la fuente, se transforman según el uso (ETL/ELT) y se almacenan en DWH/Data Mart y Insights se exponen a través de herramientas de inteligencia empresarial.


Todo parecía simple en los días de la configuración local cuando ELT (ETL vs ELT), Cloud DWH (AWS Redshift, Google Big Query, Snowflake, Databricks) y otras soluciones de datos administrados no existían, lo que últimamente se simplificó y escaló. el alcance de DWH. En este blog comprendamos cada aspecto uno a la vez.


Para simplificar, partamos de la premisa de que no hay computación ni almacenamiento infinitos y que el sistema transaccional no puede procesar consultas analíticas de manera eficiente. Aquí es donde se requería una forma eficiente de diseñar un almacén de datos que sea óptimo en almacenamiento, maneje de manera eficiente consultas analíticas (corte/cubo, etc.) y proporcione la latencia requerida.


Por todo esto, entraron en escena dos modelos de diseño teórico para el diseño de Datawarehouse :


(a) Bill Inmon – Enfoque de arriba hacia abajo (EDW) y

(b) Ralph Kimball – Enfoque ascendente (Data Mart).


El enfoque de Inmon es construir a escala global de forma centralizada y tener en cuenta la construcción lenta, mientras que el método de Kimball es crear un centro de datos independiente por silo y conectarlo más tarde. No profundicemos en qué modelo es mejor o cuál elegir. En mi caso, en pocas palabras, ambos modelos funcionan y depende totalmente del caso de uso y la madurez de la organización. Otro punto clave en este diseño es la "Representación de datos", el modelado dimensional que utiliza un esquema de estrella, un esquema de copo de nieve o un híbrido de estrella y copo de nieve, que es un pivote clave para consultas y dimensionalidad más rápidas.




La única conclusión clave es que, a pesar de la logística infinita, un buen diseño de Datawarehouse puede resolver un problema multidimensional. Así que mejor no ignorarlo.


El siguiente paso en la creación de un DW es la plataforma elegida, que puede variar desde local (Teradata, IBM DB2, Oracle, etc.) hasta Cloud DW (Snowflake, Redshift, BigQuery, etc.). Construir un almacén de datos tradicional es complejo y la gestión y el mantenimiento continuos pueden resultar desafiantes y costosos. En la siguiente sección, profundizaremos en cómo construir con AWS Redshift (no hay discusión sobre si es mejor en las instalaciones, en la nube o qué nube DWH es mejor).


Amazon Redshift es un almacén de datos de nivel empresarial a escala de petabytes totalmente administrado que proporciona un rendimiento excepcional para consultas de análisis, fácil de usar y rentable. Amazon Redshift reduce la sobrecarga operativa requerida con los almacenes de datos tradicionales al automatizar tareas como parches, copias de seguridad y aprovisionamiento de hardware. Puede configurar un clúster de Amazon Redshift donde puede personalizar la infraestructura y las líneas base de rendimiento para su almacén de datos. Amazon Redshift también proporciona Redshift Spectrum, Datashare, Redshift ML y configuración sin servidor que le permiten utilizar el clúster de Amazon Redshift más allá de DWH.


La forma de configurar,

  • Defina qué servicios aprovechar para la recopilación de datos (AWS DMS, DynamoDB, EMR, Glue, Kinesis, S3, SSH Host, etc.)
  • Definir una forma de interactuar (Herramientas de análisis de consultas e Interfaces de gestión)
  • Comprender la arquitectura Redshift MPP (distribuida, sin compartir)
  • Inicie el clúster (DC2, DS2 o RA3) con el tamaño de datos, el crecimiento, el nodo y el rendimiento de consultas requeridos
  • Diseñe el esquema de la base de datos según el caso de uso o la implementación de DWH con el tipo de datos, el tipo de esquema, la compresión, el búfer y la codificación requeridos.
  • Carga de datos usando COPIAR para diferentes tipos de archivos, INSERTAR para modificaciones mínimas y ANALIZAR Y VACÍO para mantenimiento
  • Realizar optimización de consultas y mejora del rendimiento.
  • Aproveche S3 usando Spectrum para tablas externas y recurso compartido de datos para copia cero
  • Utilice Redshift ML para obtener información detallada
  • Aproveche las herramientas de AWS Quicksight para BI para obtener información valiosa.


Hasta ahora tiene sentido utilizar Cloud DWH, pero ¿cómo encaja esto en el gran esquema de la solución DWH + Data Lake/Servicios gestionados para datos ? La siguiente imagen explica cómo los Data Lakes y los Data Warehouses funcionan juntos a la perfección. AWS RDS actúa como fuente de datos y proporciona una solución rentable y duradera que alimenta Amazon S3 . Luego, los datos se transforman mediante procesos ETL y se incorporan a Redshift. Los servicios adicionales de AWS, como Athena, Glue, Spectrum, Lake Formation y otros, desempeñan un papel crucial a la hora de cerrar la brecha para crear una solución de datos integral.






En conclusión, este blog cubre los fundamentos del almacenamiento de datos, profundiza en el enfoque de implementación tanto teóricamente como con un enfoque en la pila tecnológica. También obtenemos una visión general de cómo se integra perfectamente en el panorama más amplio de las soluciones de datos.