Apache Hadoop é uma solução de big data para armazenar e analisar grandes quantidades de dados. Neste artigo, iremos detalhar as complexas etapas de configuração do Apache Hadoop para você começar a usá-lo no Ubuntu o mais rápido possível. Nesta postagem, vamos instalar o Apache Hadoop em um Ubuntu 17.10 maquinas.
Versão Ubuntu
Para este guia, usaremos o Ubuntu versão 17.10 (GNU / Linux 4.13.0-38-x86_64 genérico).
Atualizando pacotes existentes
Para iniciar a instalação do Hadoop, é necessário que atualizemos nossa máquina com os pacotes de software mais recentes disponíveis. Podemos fazer isso com:
sudo apt-get update && sudo apt-get -y dist-upgradeComo o Hadoop é baseado em Java, precisamos instalá-lo em nossa máquina. Podemos usar qualquer versão Java acima do Java 6. Aqui, usaremos o Java 8:
sudo apt-get -y install openjdk-8-jdk-headlessDownload de arquivos Hadoop
Todos os pacotes necessários agora existem em nossa máquina. Estamos prontos para baixar os arquivos Hadoop TAR necessários para que possamos começar a configurá-los e executar um programa de amostra com o Hadoop também.
Neste guia, iremos instalar Hadoop v3.0.1. Baixe os arquivos correspondentes com este comando:
wget http: // espelho.cc.columbia.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.alcatrão.gzDependendo da velocidade da rede, isso pode levar alguns minutos, pois o arquivo é grande:
Baixando Hadoop
Encontre os binários mais recentes do Hadoop aqui. Agora que baixamos o arquivo TAR, podemos extrair no diretório atual:
tar xvzf hadoop-3.0.1.alcatrão.gzIsso levará alguns segundos para ser concluído devido ao grande tamanho do arquivo do arquivo:
Hadoop desarquivado
Adicionado um novo grupo de usuários Hadoop
Como o Hadoop opera sobre HDFS, um novo sistema de arquivos pode distorcer nosso próprio sistema de arquivos na máquina Ubuntu também. Para evitar essa colisão, criaremos um Grupo de usuários completamente separado e o atribuiremos ao Hadoop para que contenha suas próprias permissões. Podemos adicionar um novo grupo de usuários com este comando:
addgroup hadoopVeremos algo como:
Adicionando grupo de usuários Hadoop
Estamos prontos para adicionar um novo usuário a este grupo:
useradd -G hadoop hadoopuserObserve que todos os comandos que executamos são como o próprio usuário root. Com o comando aove, fomos capazes de adicionar um novo usuário ao grupo que criamos.
Para permitir que o usuário Hadoop execute operações, precisamos fornecer acesso root também. Abra o / etc / sudoers arquivo com este comando:
sudo visudoAntes de adicionarmos qualquer coisa, o arquivo terá a seguinte aparência:
Arquivo Sudoers antes de adicionar qualquer coisa
Adicione a seguinte linha ao final do arquivo:
hadoopuser ALL = (ALL) ALLAgora, o arquivo terá a seguinte aparência:
Arquivo Sudoers após adicionar o usuário Hadoop
Esta foi a configuração principal para fornecer ao Hadoop uma plataforma para executar ações. Estamos prontos para configurar um cluster Hadoop de nó único agora.
Configuração de nó único do Hadoop: modo autônomo
Quando se trata do poder real do Hadoop, ele geralmente é configurado em vários servidores para que possa escalar em cima de uma grande quantidade de conjunto de dados presente em Sistema de arquivos distribuídos Hadoop (HDFS). Isso geralmente é adequado para ambientes de depuração e não é usado para uso em produção. Para manter o processo simples, explicaremos como podemos fazer uma configuração de nó único para Hadoop aqui.
Assim que terminarmos de instalar o Hadoop, também executaremos um aplicativo de amostra no Hadoop. A partir de agora, o arquivo Hadoop é nomeado como hadoop-3.0.1. vamos renomeá-lo para hadoop para um uso mais simples:
mv hadoop-3.0.1 hadoopO arquivo agora se parece com:
Movendo Hadoop
É hora de usar o usuário hadoop que criamos anteriormente e atribuir a propriedade deste arquivo a esse usuário:
chown -R hadoopuser: hadoop / root / hadoopUm local melhor para o Hadoop será o diretório / usr / local /, então vamos movê-lo para lá:
mv hadoop / usr / local /cd / usr / local /
Adicionando Hadoop ao caminho
Para executar scripts Hadoop, iremos adicioná-lo ao caminho agora. Para fazer isso, abra o arquivo bashrc:
vi ~ /.bashrcAdicione essas linhas ao final do .arquivo bashrc para que esse caminho possa conter o caminho do arquivo executável do Hadoop:
# Configure Hadoop e Java Homeexport HADOOP_HOME = / usr / local / hadoop
export JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
exportar PATH = $ PATH: $ HADOOP_HOME / bin
O arquivo se parece com:
Adicionando Hadoop ao caminho
Como o Hadoop usa Java, precisamos informar ao arquivo de ambiente do Hadoop hadoop-env.sh Onde ele é localizado. A localização deste arquivo pode variar com base nas versões do Hadoop. Para encontrar facilmente onde este arquivo está localizado, execute o seguinte comando fora do diretório Hadoop:
find hadoop / -name hadoop-env.shObteremos a saída para o local do arquivo:
Localização do arquivo de ambiente
Vamos editar este arquivo para informar ao Hadoop sobre a localização do Java JDK e inserir na última linha do arquivo e salvá-lo:
export JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64A instalação e configuração do Hadoop agora estão completas. Estamos prontos para executar nosso aplicativo de amostra agora. Mas espere, nunca fizemos um aplicativo de amostra!
Executando o aplicativo de amostra com Hadoop
Na verdade, a instalação do Hadoop vem com um aplicativo de amostra integrado que está pronto para ser executado assim que terminarmos de instalar o Hadoop. Soa bem, certo?
Execute o seguinte comando para executar o exemplo JAR:
hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / root / hadoop / README.txt / root / OutputO Hadoop mostrará quanto processamento fez no nó:
Estatísticas de processamento do Hadoop
Depois de executar o seguinte comando, vemos o arquivo part-r-00000 como uma saída. Vá em frente e observe o conteúdo da saída:
cat parte-r-00000Você obterá algo como:
Resultado de contagem de palavras por Hadoop
Conclusão
Nesta lição, vimos como podemos instalar e começar a usar o Apache Hadoop no Ubuntu 17.10 maquinas. O Hadoop é ótimo para armazenar e analisar uma grande quantidade de dados e espero que este artigo o ajude a começar a usá-lo no Ubuntu rapidamente.