Instale o Apache Hadoop no Ubuntu 17.10!

Apache Hadoop é uma solução de big data para armazenar e analisar grandes quantidades de dados. Neste artigo, iremos detalhar as complexas etapas de configuração do Apache Hadoop para você começar a usá-lo no Ubuntu o mais rápido possível. Nesta postagem, vamos instalar o Apache Hadoop em um Ubuntu 17.10 maquinas.

Versão Ubuntu

Para este guia, usaremos o Ubuntu versão 17.10 (GNU / Linux 4.13.0-38-x86_64 genérico).

Atualizando pacotes existentes

Para iniciar a instalação do Hadoop, é necessário que atualizemos nossa máquina com os pacotes de software mais recentes disponíveis. Podemos fazer isso com:

sudo apt-get update && sudo apt-get -y dist-upgrade

Como o Hadoop é baseado em Java, precisamos instalá-lo em nossa máquina. Podemos usar qualquer versão Java acima do Java 6. Aqui, usaremos o Java 8:

sudo apt-get -y install openjdk-8-jdk-headless

Download de arquivos Hadoop

Todos os pacotes necessários agora existem em nossa máquina. Estamos prontos para baixar os arquivos Hadoop TAR necessários para que possamos começar a configurá-los e executar um programa de amostra com o Hadoop também.

Neste guia, iremos instalar Hadoop v3.0.1. Baixe os arquivos correspondentes com este comando:

wget http: // espelho.cc.columbia.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.alcatrão.gz

Dependendo da velocidade da rede, isso pode levar alguns minutos, pois o arquivo é grande:

Baixando Hadoop

Encontre os binários mais recentes do Hadoop aqui. Agora que baixamos o arquivo TAR, podemos extrair no diretório atual:

tar xvzf hadoop-3.0.1.alcatrão.gz

Isso levará alguns segundos para ser concluído devido ao grande tamanho do arquivo do arquivo:

Hadoop desarquivado

Adicionado um novo grupo de usuários Hadoop

Como o Hadoop opera sobre HDFS, um novo sistema de arquivos pode distorcer nosso próprio sistema de arquivos na máquina Ubuntu também. Para evitar essa colisão, criaremos um Grupo de usuários completamente separado e o atribuiremos ao Hadoop para que contenha suas próprias permissões. Podemos adicionar um novo grupo de usuários com este comando:

addgroup hadoop

Veremos algo como:

Adicionando grupo de usuários Hadoop

Estamos prontos para adicionar um novo usuário a este grupo:

useradd -G hadoop hadoopuser

Observe que todos os comandos que executamos são como o próprio usuário root. Com o comando aove, fomos capazes de adicionar um novo usuário ao grupo que criamos.

Para permitir que o usuário Hadoop execute operações, precisamos fornecer acesso root também. Abra o / etc / sudoers arquivo com este comando:

sudo visudo

Antes de adicionarmos qualquer coisa, o arquivo terá a seguinte aparência:

Arquivo Sudoers antes de adicionar qualquer coisa

Adicione a seguinte linha ao final do arquivo:

hadoopuser ALL = (ALL) ALL

Agora, o arquivo terá a seguinte aparência:

Arquivo Sudoers após adicionar o usuário Hadoop

Esta foi a configuração principal para fornecer ao Hadoop uma plataforma para executar ações. Estamos prontos para configurar um cluster Hadoop de nó único agora.

Configuração de nó único do Hadoop: modo autônomo

Quando se trata do poder real do Hadoop, ele geralmente é configurado em vários servidores para que possa escalar em cima de uma grande quantidade de conjunto de dados presente em Sistema de arquivos distribuídos Hadoop (HDFS). Isso geralmente é adequado para ambientes de depuração e não é usado para uso em produção. Para manter o processo simples, explicaremos como podemos fazer uma configuração de nó único para Hadoop aqui.

Assim que terminarmos de instalar o Hadoop, também executaremos um aplicativo de amostra no Hadoop. A partir de agora, o arquivo Hadoop é nomeado como hadoop-3.0.1. vamos renomeá-lo para hadoop para um uso mais simples:

mv hadoop-3.0.1 hadoop

O arquivo agora se parece com:

Movendo Hadoop

É hora de usar o usuário hadoop que criamos anteriormente e atribuir a propriedade deste arquivo a esse usuário:

chown -R hadoopuser: hadoop / root / hadoop

Um local melhor para o Hadoop será o diretório / usr / local /, então vamos movê-lo para lá:

mv hadoop / usr / local /
cd / usr / local /

Adicionando Hadoop ao caminho

Para executar scripts Hadoop, iremos adicioná-lo ao caminho agora. Para fazer isso, abra o arquivo bashrc:

vi ~ /.bashrc

Adicione essas linhas ao final do .arquivo bashrc para que esse caminho possa conter o caminho do arquivo executável do Hadoop:

# Configure Hadoop e Java Home
export HADOOP_HOME = / usr / local / hadoop
export JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
exportar PATH = $ PATH: $ HADOOP_HOME / bin

O arquivo se parece com:

Adicionando Hadoop ao caminho

Como o Hadoop usa Java, precisamos informar ao arquivo de ambiente do Hadoop hadoop-env.sh Onde ele é localizado. A localização deste arquivo pode variar com base nas versões do Hadoop. Para encontrar facilmente onde este arquivo está localizado, execute o seguinte comando fora do diretório Hadoop:

find hadoop / -name hadoop-env.sh

Obteremos a saída para o local do arquivo:

Localização do arquivo de ambiente

Vamos editar este arquivo para informar ao Hadoop sobre a localização do Java JDK e inserir na última linha do arquivo e salvá-lo:

export JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

A instalação e configuração do Hadoop agora estão completas. Estamos prontos para executar nosso aplicativo de amostra agora. Mas espere, nunca fizemos um aplicativo de amostra!

Executando o aplicativo de amostra com Hadoop

Na verdade, a instalação do Hadoop vem com um aplicativo de amostra integrado que está pronto para ser executado assim que terminarmos de instalar o Hadoop. Soa bem, certo?

Execute o seguinte comando para executar o exemplo JAR:

hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / root / hadoop / README.txt / root / Output

O Hadoop mostrará quanto processamento fez no nó:

Estatísticas de processamento do Hadoop

Depois de executar o seguinte comando, vemos o arquivo part-r-00000 como uma saída. Vá em frente e observe o conteúdo da saída:

cat parte-r-00000

Você obterá algo como:

Resultado de contagem de palavras por Hadoop

Conclusão

Nesta lição, vimos como podemos instalar e começar a usar o Apache Hadoop no Ubuntu 17.10 maquinas. O Hadoop é ótimo para armazenar e analisar uma grande quantidade de dados e espero que este artigo o ajude a começar a usá-lo no Ubuntu rapidamente.