Apache Solr

Melhores motores de busca auto-hospedados

Melhores motores de busca auto-hospedados
Seu chefe sabe que você está procurando outro emprego? Você disse ao seu outro significativo sobre a incapacidade de decidir se quer ter filhos ou não? Seus pais sabem sobre sua orientação sexual? Bem, o Google e outros grandes motores de busca fazem.

“A maioria dos usuários pesquisa no Google enquanto está conectado, então todas as informações sobre sua vida online estão disponíveis: pesquisas no YouTube, e-mails e histórico de pesquisas anteriores”, diz Adam Tauber, o desenvolvedor-chefe do mecanismo de metabusca Searx que respeita a privacidade.

Claro, você pode usar o Tor para anonimato e sempre excluir todos os vestígios de sua atividade após cada pesquisa, mas fazer isso após cada pesquisa provavelmente envelheceria rapidamente. Em vez disso, você deve considerar a instalação de um mecanismo de pesquisa auto-hospedado capaz de recuperar informações para você sem revelar nada confidencial sobre você.

Selecionamos dois desses mecanismos de pesquisa e também apresentamos três mecanismos de pesquisa adicionais para mostrar a você que já existem excelentes alternativas aos mecanismos de pesquisa proprietários, como Google ou Bing e são mais fáceis de instalar e usar do que você imagina.

1. YaCy

YaCy é um mecanismo de pesquisa ponto a ponto distribuído gratuitamente cujo componente principal é escrito em Java. Como todos os usuários do YaCy são iguais e o mecanismo de pesquisa não armazena solicitações de pesquisa do usuário, a censura simplesmente não é possível.

Atualmente, YaCy indexa cerca de 1.4 bilhões de documentos em seu índice graças à atividade de mais de 600 operadores pares que contribuem para ele a cada mês. Para efeito de comparação, o índice da Pesquisa Google contém centenas de bilhões de páginas da web e tem bem mais de 100 milhões de gigabytes de tamanho.

Embora o YaCy ainda tenha um longo caminho a percorrer antes de poder rivalizar com os maiores mecanismos de pesquisa centralizados do mundo, já é utilizável como um portal de pesquisa para intranets privadas e aplicativos específicos de projeto, porque o YaCy pode operar como um único appliance sem rede com outros pares.

YaCy pode ser facilmente integrado em qualquer página da web graças aos seus trechos de código simples que podem ser facilmente copiados e colados sem qualquer modificação.

2. Searx

Searx é descrito como um mecanismo de metabusca que respeita a privacidade e pode ser hackeado. Está disponível sob a GNU Affero General Public License versão 3, e seu principal objetivo é proteger a privacidade de seus usuários, nunca compartilhando os endereços IP dos usuários ou o histórico de pesquisa com os mecanismos de pesquisa dos quais coleta resultados.

“Ao usar o Searx, o endereço IP do Searx, um User-Agent aleatório e uma consulta de pesquisa são enviados ao Google por padrão”, Adam Tauber, também conhecido como asciimoo, explica como funciona seu mecanismo de metabusca. “Claro, você pode personalizar o Searx para encaminhar outros parâmetros extras, como idioma de pesquisa ou o número da página da página de resultados solicitada.”

O Searx bloqueia automaticamente todos os cookies de rastreamento servidos pelos mecanismos de pesquisa para evitar a modificação dos resultados com base no perfil do usuário, que pode resultar de um mecanismo de pesquisa tentando implementar uma pesquisa individualizada com base no que o mecanismo sabe sobre o usuário. Searx é 100 por cento gratuito e qualquer pessoa pode modificá-lo conforme necessário. Você pode até pegar o código Searx e executar o mecanismo de metabusca em seu próprio servidor, o que definitivamente deve resolver qualquer preocupação que você possa ter em relação aos logs.

3. ElasticSearch

ElasticSearch é um mecanismo de busca baseado em Lucene, uma biblioteca de software de recuperação de informação gratuita e de código aberto suportada pela Apache Software Foundation e é lançada sob a Licença de Software Apache.

ElasticSearch fornece um mecanismo de pesquisa de texto completo com uma interface da web HTTP. O mecanismo de pesquisa pode ser usado para pesquisar todos os tipos de documentos e pode ser facilmente distribuído em vários nós.

É possível construir um mecanismo de pesquisa auto-hospedado usando ElasticSearch e Docker, e você pode encontrar um tutorial que descreve o processo aqui.

4. Ambar

Ambar é um motor de busca de documentos de código aberto com muitos recursos úteis. Ele suporta rastreamento automatizado, marcação e pesquisa instantânea de texto completo, apenas para dar alguns exemplos. Um dos recursos mais interessantes do Ambar é a capacidade de executar OCR em imagens e arquivos PDF. Os idiomas suportados incluem inglês, alemão, russo, italiano, francês, espanhol, polonês e holandês.

O Ambar pode ser facilmente implantado com um único arquivo docker-compose, e você pode aprender como fazê-lo aqui.

5. Apache Solr

Escrito em Java, o Apache Solr é uma plataforma de pesquisa corporativa que inclui pesquisa de texto completo, destaque de ocorrências, pesquisa facetada, indexação em tempo real, armazenamento em cluster dinâmico e muitos outros recursos importantes. Foi criado em 2004 para um projeto interno na CNET Networks. A CNET Networks gentilmente doou-o para a Apache Software Foundation em 2006, onde passou do status de incubação para um projeto autônomo de alto nível em 2007.

Hoje, o Solr é uma plataforma de pesquisa corporativa altamente confiável, escalonável e tolerante a falhas que alimenta os recursos de pesquisa e navegação de muitos dos maiores sites da Internet do mundo, incluindo DuckDuckGo, eHarmony e BestBuy. Você pode

Como instalar e configurar o YaCy

A instalação do YaCy é muito simples e leva apenas alguns minutos porque você não precisa instalar um banco de dados externo ou servidor web - o YaCy vem com tudo que é necessário.

  1. Vá para o site oficial do YaCy e baixe o pacote mais recente para Linux.
  2. Instale o ambiente de execução OpenJDK 8.
    • Se você estiver usando uma distribuição baseada em Debian, use o seguinte comando: $ sudo apt-get install openjdk-8-jre
    • Caso contrário, siga as instruções específicas para sua distribuição.
  3. Extraia o pacote baixado para o local de sua preferência.
  4. Vá para a nova pasta e inicie o “startYACY.sh ”script no Terminal.
  5. Você deve ver uma mensagem de confirmação informando que o YaCy foi iniciado como um daemon

Conclusão

Os mecanismos de pesquisa sabem mais sobre nós do que a maioria das pessoas gostaria de admitir. Se você gostaria de parar de alimentar grandes corporações com dados interessantes, você pode fazer as coisas com suas próprias mãos e configurar um mecanismo de pesquisa auto-hospedado para proteger sua privacidade. Embora os mecanismos de pesquisa auto-hospedados ainda tenham um longo caminho a percorrer para se tornarem totalmente utilizáveis, o potencial para superar os do Google está lá e capturá-lo é apenas uma questão de atrair mais usuários.

SuperTuxKart para Linux
SuperTuxKart é um ótimo título projetado para trazer a você a experiência Mario Kart gratuitamente em seu sistema Linux. É bastante desafiador e diver...
Tutorial de Battle for Wesnoth
The Battle for Wesnoth é um dos jogos de estratégia de código aberto mais populares que você pode jogar no momento. Este jogo não está apenas em desen...
0 A.D. Tutorial
Dos muitos jogos de estratégia que existem, 0 A.D. consegue se destacar como um título abrangente e um jogo muito profundo e tático, apesar de ser de ...