ANÁLISE

Há vários serviços de análise da AWS e estes incluem:

  • Amazon Athena
  • Amazon EMR
  • Amazon CloudSearch
  • Amazon Opensearch Service
  • Amazon Kinesis
  • Amazon QuickSight
  • Amazon Data Pipeline
  • AWS Glue
  • AWS Lake Formation
  • Amazon MSK

Neste artigo, iremos focar em Athena, EMR, Glue e Kinesis, pois esses são os serviços prováveis de serem abordados no exame AWS Certified Cloud Practitioner.

Amazon Elastic Map Reduce

O Amazon EMR é um serviço web que permite que empresas, pesquisadores, analistas de dados e desenvolvedores processem facilmente e de forma econômica, grandes volumes de dados.

 

O EMR utiliza um framework Hadoop hospedado em instâncias Amazon EC2 e Amazon S3.

 

Framework Hadoop gerenciado para processamento de grandes volumes de dados.

 

Também suporta Apache Spark, HBase, Presto e Flink.

 

Geralmente utilizado para análise de logs, análise financeira ou atividades de extração, tradução e carga (ETL).

 

Um step é uma tarefa programática para realizar algum processo nos dados (por exemplo, contar palavras).

 

Um cluster é uma coleção de instâncias EC2 provisionadas pelo EMR para executar seus step.

 

O EMR utiliza o Apache Hadoop como seu motor de processamento distribuído de dados, que é um framework de software Java de código aberto que suporta aplicativos distribuídos intensivos em dados em grandes clusters de hardware comum.

 

O EMR é um bom lugar para implantar o Apache Spark, um processamento distribuído de código aberto usado para cargas de trabalho de big data que utiliza armazenamento em cache na memória e execução otimizada de consultas.

 

Você também pode iniciar clusters Presto. O Presto é um motor de consulta SQL distribuído de código aberto projetado para consultas analíticas rápidas em conjuntos de dados grandes.

 

O EMR lança todos os nós para um determinado cluster na mesma Zona de Disponibilidade Amazon EC2.

 

Você pode acessar o Amazon EMR usando o Console de Gerenciamento da AWS, Ferramentas de Linha de Comando, SDKs ou a API EMR.

 

Com o EMR, você tem acesso ao sistema operacional subjacente (pode fazer SSH).

Amazon Athena

Amazon Athena é um serviço de consulta interativa que facilita a análise de dados no Amazon S3 usando SQL padrão.

 

Athena é serverless, então não há infraestrutura para gerenciar, e você paga apenas pelas consultas que executa.

 

Athena é fácil de usar – basta apontar para seus dados no Amazon S3, definir o esquema e começar a consultar usando SQL padrão.

 

A Amazon Athena utiliza o Presto com suporte total a SQL padrão e funciona com uma variedade de formatos de dados padrão, incluindo CSV, JSON, ORC, Apache Parquet e Avro.

 

Embora a Amazon Athena seja ideal para consultas rápidas e ad-hoc e integre-se ao Amazon QuickSight para visualização fácil, ela também pode lidar com análises complexas, incluindo grandes junções, funções de janela e arrays.

 

Amazon Athena usa um Catálogo de Dados gerenciado para armazenar informações e esquemas sobre os bancos de dados e tabelas que você cria para seus dados armazenados no Amazon S3.

AWS Glue

AWS Glue é um serviço totalmente gerenciado, pay-as-you-go, de extração, transformação e carga (ETL) que automatiza as etapas demoradas de preparação de dados para análises.

 

ETL significa: Extract, Transform, Load, que em português é: Extrair, Transformar, Carregar.

 

O AWS Glue descobre e perfila automaticamente dados por meio do Catálogo de Dados Glue, recomenda e gera código ETL para transformar seus dados de origem em esquemas de destino.

 

O AWS Glue executa os trabalhos ETL em um ambiente Apache Spark totalmente gerenciado para carregar seus dados em seu destino.

 

O AWS Glue também permite configurar, orquestrar e monitorar fluxos de dados complexos.

Você pode criar e executar um trabalho ETL com alguns cliques no Console de Gerenciamento da AWS.

Use o AWS Glue para descobrir propriedades de dados, transformá-los e prepará-los para análises.

 

O Glue pode descobrir automaticamente dados estruturados e semi-estruturados armazenados em data lakes no Amazon S3, data warehouses no Amazon Redshift e vários bancos de dados em execução na AWS.

 

Ele fornece uma visão unificada dos dados por meio do Catálogo de Dados Glue, que está disponível para ETL, consulta e relatório usando serviços como Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

 

O Glue gera automaticamente código Scala ou Python para trabalhos ETL que você pode personalizar ainda mais usando ferramentas com as quais você já está familiarizado.

 

O AWS Glue é serverless, portanto, não há recursos de computação para configurar e gerenciar.

Casos de Uso de Análise de Dados e Consulta

Serviços de consulta como Amazon Athena, data warehouses como Amazon Redshift e estruturas sofisticadas de processamento de dados como Amazon EMR, abordam diferentes necessidades e casos de uso.

 

O Amazon Redshift fornece o desempenho de consulta mais rápido para cargas de trabalho de relatórios empresariais e inteligência de negócios, especialmente aquelas que envolvem SQL extremamente complexo com várias junções e subconsultas.

 

O Amazon EMR torna simples e econômico executar frameworks de processamento altamente distribuídos, como Hadoop, Spark e Presto, em comparação com implementações no local. O Amazon EMR é flexível – você pode executar aplicativos e código personalizados e definir parâmetros específicos de computação, memória, armazenamento e aplicação para otimizar seus requisitos analíticos.

 

Amazon Athena fornece a maneira mais fácil de executar consultas ad-hoc para dados no S3 sem a necessidade de configurar ou gerenciar servidores.

 

A tabela abaixo mostra o caso de uso principal e as situações para o uso de alguns serviços de consulta e análise da AWS:

SERVIÇOS AWS

CASOS DE USO

QUANDO USAR

Amazon Athena

Consulta

Executar consultas interativas diretamente em dados no Amazon S3 sem se preocupar com a formatação dos dados ou gerenciamento de infraestrutura. Pode ser usado com outros serviços como o Amazon RedShift

Amazon RedShift

Data Warehouse

Extrair dados de várias fontes, formatá-los e organizá-los, armazená-los e oferecer suporte a consultas complexas e rápidas que geram relatórios comerciais

Amazon EMR

Processamento de Dados

Frameworks de processamento altamente distribuídos, como Hadoop, Spark e Presto. Executa uma ampla variedade de tarefas de processamento de dados de escala para aplicativos como aprendizado de máquina, análise de gráficos, transformação de dados, dados em tempo real

AWS Glue

Serviço ETL

Transforma e move dados para vários destinos. Usado para preparar e carregar dados para análises. A fonte de dados pode ser S3, RedShift ou outro banco de dados. O Catálogo de Dados Glue pode ser consultado por Athena, EMR e RedShift Spectrum

Amazon Kinesis

Amazon Kinesis facilita a coleta, processamento e análise de dados em tempo real e em fluxo, permitindo obter insights oportunos e reagir rapidamente a novas informações.

 

Coleção de serviços para processar fluxos de diversos tipos de dados.

 

Os dados são processados em “shards” (partições).

 

Existem quatro tipos de serviços Kinesis, detalhados a seguir.

Kinesis Video Streams

Kinesis Video Streams facilita o streaming seguro de vídeo de dispositivos conectados para a AWS para análises, aprendizado de máquina (ML) e outros processamentos.

 

Armazena, criptografa e indexa de forma durável fluxos de dados de vídeo, permitindo acesso aos dados por meio de APIs fáceis de usar.

 

Os produtores fornecem fluxos de dados.

 

Os dados são armazenados por padrão por 24 horas, até 7 dias.

 

Os consumidores recebem e processam dados.

 

Pode ter várias partições em um fluxo.

 

Oferece suporte à criptografia em repouso com criptografia do lado do servidor (KMS) com uma chave mestra do cliente.

 

Kinesis Data Streams

O Kinesis Data Streams permite construir aplicativos personalizados que processam ou analisam dados em tempo real para necessidades especializadas.

 

Possibilita o processamento em tempo real de grandes volumes de dados (big data) em fluxo.

 

Serve para mover rapidamente dados dos produtores de dados e, em seguida, processar continuamente esses dados.

 

Armazena dados para processamento posterior por aplicativos (diferença chave em relação ao Firehose, que entrega dados diretamente para os serviços AWS).

 

Casos de uso comuns incluem:

  • Captação acelerada de logs e feeds de dados.
  • Métricas e relatórios em tempo real.
  • Análise de dados em tempo real.
  • Processamento de fluxo complexo.

Kinesis Data Firehose

O Kinesis Data Firehose é a maneira mais fácil de carregar dados em fluxo em armazenamentos de dados e ferramentas de análise.

Captura, transforma e carrega dados em fluxo.

 

Possibilita análises quase em tempo real com ferramentas e painéis de inteligência de negócios existentes.

 

O Kinesis Data Streams pode ser usado como a fonte para o Kinesis Data Firehose.

 

Você pode configurar o Kinesis Data Firehose para transformar seus dados antes de entregá-los.

 

Com o Kinesis Data Firehose, você não precisa escrever um aplicativo ou gerenciar recursos.

 

O Firehose pode agrupar, compactar e criptografar dados antes de carregá-los.

 

O Firehose replica dados de forma síncrona em três Zonas de Disponibilidade à medida que são transportados para os destinos.

 

Cada fluxo de entrega armazena registros de dados por até 24 horas.

 

Kinesis Data Analytics

Amazon Kinesis Data Analytics é a maneira mais fácil de processar e analisar dados em tempo real e em fluxo.

 

Pode usar consultas SQL padrão para processar fluxos de dados Kinesis.

 

Oferece análise em tempo real.

 

Casos de uso comuns incluem:

  • Gerar análises de séries temporais.
  • Alimentar painéis em tempo real.
  • Criar alertas e notificações em tempo real.
  • Criar e executar rapidamente código SQL poderoso contra fontes de streaming.
  • Pode receber dados de Kinesis Streams e Kinesis Firehose.
  • Saída para S3, RedShift, Elasticsearch e Kinesis Data Streams.
Rolar para cima