Apache Hadoop

Apache Hadoop

Hadoop é um ecossistema de componentes de código aberto que muda fundamentalmente a maneira como as empresas armazenar, processar e analisar dados. Ao contrário dos sistemas tradicionais, o Hadoop permite que vários tipos de cargas de trabalho analíticas para executar nos mesmos dados, ao mesmo tempo. CDH, plataforma de código aberto da Cloudera, é a distribuição mais popular do Hadoop e projetos relacionados do mundo (com suporte disponível via Cloudera Enterprise).

 Servidor

 Servir O armazenamento de dados distribuídos para Hadoop, HBase, apoia a rápida e aleatória lê / escreve ("rápida de dados"), necessários para aplicações online.

   

Armazenar

Arquitetura flexível infinitamente escalável do Hadoop (com base no sistema de arquivos HDFS) permite que as organizações para armazenar e analisar quantidades ilimitadas e tipos de dados todos em uma plataforma open source único em hardware padrão da indústria.

Modelo

Com o Hadoop, analistas e cientistas de dados têm a flexibilidade para desenvolver e interagir em modelos estatísticos avançados utilizando uma mistura de tecnologias parceiros, bem como estruturas de código aberto como faísca Apache e Apache Mahout.

 Processo

Integrar rapidamente com sistemas ou aplicações existentes para mover dados para dentro e para fora do Hadoop através do processamento de carga a granel (Apache Sqoop) ou streaming (Apache Flume, Apache Kafka).

Transformar dados complexos, em escala, usando várias opções de acesso a dados (Apache Hive, Apache Pig) para lote (MR2) ou rápida (Apache Faísca) de processamento in-memory. Dados do processo de streaming como ela chega em seu cluster via faísca Streaming. 

Descobrido

Analistas interagir com dados full-fidelidade na mosca com Impala, o banco de dados analítico para Hadoop. Com Apache Impala (incubação), os analistas enfrentar desempenho BI-SQL qualidade e funcionalidade além de compatibilidade com todas as principais ferramentas de BI.
Usando a pesquisa Cloudera, uma integração do Hadoop e Apache Solr, os analistas podem acelerar o processo de descobrir padrões nos dados em todas as quantidades e formatos, especialmente quando combinados com Impala