Desafio: Criar um ambiente de experimentação de dados para a área de consentimento, permitindo a ingestão, processamento e análise de grandes volumes de dados em tempo real, garantindo alta disponibilidade e flexibilidade na criação de insights gerenciais.
Objetivos do Projeto
- Criar um pipeline de dados utilizando AWS Kinesis Data Streams e Kinesis Firehose.
- Converter e armazenar dados em um bucket S3 no formato Parquet.
- Gerenciar metadados utilizando AWS Glue.
- Realizar consultas e associações de dados com AWS Athena e Amazon EMR.
- Criar dashboards gerenciais com informações processadas.
Soluções Implementadas
1. Pipeline de Dados com Kinesis Data Streams e Kinesis Firehose:
- Descrição: Utilizamos AWS Kinesis Data Streams para coletar e processar dados em tempo real. Os dados foram ingeridos de diversas fontes e enviados para Kinesis Firehose, que realiza a conversão e entrega dos dados em um bucket S3 no formato Parquet.
- Benefícios: Processamento em tempo real, escalabilidade automática e simplificação na ingestão e transformação de dados.
2. Armazenamento de Dados em S3:
- Descrição: Os dados processados pelo Kinesis Firehose foram armazenados em um bucket S3 no formato Parquet, que é eficiente em termos de armazenamento e otimizado para consultas analíticas.
- Benefícios: Redução de custos de armazenamento, melhor desempenho de consultas e suporte a grandes volumes de dados.
3. Gerenciamento de Metadados com AWS Glue:
- Descrição: Criamos um catálogo de dados utilizando AWS Glue para armazenar os metadados das conversões realizadas. O Glue facilita a descoberta e organização dos dados, permitindo a criação de tabelas e esquemas que podem ser consultados com facilidade.
- Benefícios: Simplificação do gerenciamento de metadados, integração automática com outros serviços AWS e suporte a ETL (extração, transformação e carga) de dados.
4. Consultas e Análises com AWS Athena e Amazon EMR:
- Descrição: Utilizamos AWS Athena para realizar consultas SQL diretamente nos dados armazenados no S3, e Amazon EMR para processar e associar esses dados com outras bases. O EMR permitiu o uso de frameworks como Apache Spark e Hadoop para análises complexas e processamento em larga escala.
- Benefícios: Consulta ad-hoc rápida e eficiente com Athena, processamento de big data com EMR e integração fluida entre os serviços.
5. Criação de Dashboards Gerenciais:
- Descrição: Com os dados processados e analisados, criamos dashboards gerenciais utilizando ferramentas de visualização como Amazon QuickSight. Esses dashboards proporcionam insights valiosos e facilitam a tomada de decisões informadas pela equipe.
- Benefícios: Visualização clara e interativa dos dados, geração de insights em tempo real e suporte a decisões estratégicas.
Resultados Obtidos
- Pipeline de Dados Robusto: Implementação de um pipeline de dados eficiente e escalável, capaz de processar grandes volumes de dados em tempo real.
- Armazenamento Otimizado: Uso do formato Parquet para armazenamento econômico e performático dos dados.
- Metadados Organizados: Gerenciamento eficaz de metadados com AWS Glue, facilitando a organização e descoberta dos dados.
- Consultas e Análises Eficientes: Realização de consultas rápidas e análises complexas utilizando Athena e EMR.
- Dashboards Gerenciais: Criação de dashboards que proporcionam insights valiosos e suporte à tomada de decisões.
Conclusão
Este projeto demonstra a capacidade da SOLUTIS TECNOLOGIAS em criar soluções avançadas de processamento e análise de dados utilizando serviços AWS. A equipe NIKE – SERASA agora possui um ambiente de experimentação de dados robusto e escalável, preparado para enfrentar desafios complexos e fornecer insights valiosos para a organização.