case serasa Implantação do Ambiente DEVHUB com AWS EKS
Implantação do Ambiente DEVHUB com AWS EKS
julho 16, 2024

Desafio: Criar um ambiente de experimentação de dados para a área de consentimento, permitindo a ingestão, processamento e análise de grandes volumes de dados em tempo real, garantindo alta disponibilidade e flexibilidade na criação de insights gerenciais.

Objetivos do Projeto

  1. Criar um pipeline de dados utilizando AWS Kinesis Data Streams e Kinesis Firehose.
  2. Converter e armazenar dados em um bucket S3 no formato Parquet.
  3. Gerenciar metadados utilizando AWS Glue.
  4. Realizar consultas e associações de dados com AWS Athena e Amazon EMR.
  5. Criar dashboards gerenciais com informações processadas.

Soluções Implementadas

1. Pipeline de Dados com Kinesis Data Streams e Kinesis Firehose:

  • Descrição: Utilizamos AWS Kinesis Data Streams para coletar e processar dados em tempo real. Os dados foram ingeridos de diversas fontes e enviados para Kinesis Firehose, que realiza a conversão e entrega dos dados em um bucket S3 no formato Parquet.
  • Benefícios: Processamento em tempo real, escalabilidade automática e simplificação na ingestão e transformação de dados.

2. Armazenamento de Dados em S3:

  • Descrição: Os dados processados pelo Kinesis Firehose foram armazenados em um bucket S3 no formato Parquet, que é eficiente em termos de armazenamento e otimizado para consultas analíticas.
  • Benefícios: Redução de custos de armazenamento, melhor desempenho de consultas e suporte a grandes volumes de dados.

3. Gerenciamento de Metadados com AWS Glue:

  • Descrição: Criamos um catálogo de dados utilizando AWS Glue para armazenar os metadados das conversões realizadas. O Glue facilita a descoberta e organização dos dados, permitindo a criação de tabelas e esquemas que podem ser consultados com facilidade.
  • Benefícios: Simplificação do gerenciamento de metadados, integração automática com outros serviços AWS e suporte a ETL (extração, transformação e carga) de dados.

4. Consultas e Análises com AWS Athena e Amazon EMR:

  • Descrição: Utilizamos AWS Athena para realizar consultas SQL diretamente nos dados armazenados no S3, e Amazon EMR para processar e associar esses dados com outras bases. O EMR permitiu o uso de frameworks como Apache Spark e Hadoop para análises complexas e processamento em larga escala.
  • Benefícios: Consulta ad-hoc rápida e eficiente com Athena, processamento de big data com EMR e integração fluida entre os serviços.

5. Criação de Dashboards Gerenciais:

  • Descrição: Com os dados processados e analisados, criamos dashboards gerenciais utilizando ferramentas de visualização como Amazon QuickSight. Esses dashboards proporcionam insights valiosos e facilitam a tomada de decisões informadas pela equipe.
  • Benefícios: Visualização clara e interativa dos dados, geração de insights em tempo real e suporte a decisões estratégicas.

Resultados Obtidos

  • Pipeline de Dados Robusto: Implementação de um pipeline de dados eficiente e escalável, capaz de processar grandes volumes de dados em tempo real.
  • Armazenamento Otimizado: Uso do formato Parquet para armazenamento econômico e performático dos dados.
  • Metadados Organizados: Gerenciamento eficaz de metadados com AWS Glue, facilitando a organização e descoberta dos dados.
  • Consultas e Análises Eficientes: Realização de consultas rápidas e análises complexas utilizando Athena e EMR.
  • Dashboards Gerenciais: Criação de dashboards que proporcionam insights valiosos e suporte à tomada de decisões.

Conclusão

Este projeto demonstra a capacidade da SOLUTIS TECNOLOGIAS em criar soluções avançadas de processamento e análise de dados utilizando serviços AWS. A equipe NIKE – SERASA agora possui um ambiente de experimentação de dados robusto e escalável, preparado para enfrentar desafios complexos e fornecer insights valiosos para a organização.