OCR

Como executar o tesseract no arquivo GIF no linux

Como executar o tesseract no arquivo GIF no linux
Tesseract é um sistema OCR (Optical Character Recognition), entre os melhores. O software OCR é capaz de compreender texto de imagens e documentos digitalizados (incluindo escrita à mão, se você treiná-la). Um sistema OCR pode ser útil para muitas tarefas, como contagem de palavras em documentos digitalizados, transcrição automática, conversão de caracteres de imagem em texto e muito mais.

LinuxHint já publicou um tutorial explicando como instalar e entender o treinamento do Tesseract.

Este tutorial mostra o processo de instalação do Tesseract em sistemas Debian / Ubuntu, mas não se estende nas funcionalidades de treinamento, se você não estiver familiarizado com este software, a leitura do artigo mencionado pode ser uma boa introdução.  Em seguida, mostraremos como processar uma imagem GIF com Tesseract para obter o texto dela.

Instalação do Tesseract:

Corre:

apt install tesseract-ocr

Agora você precisa instalar o Imagemagick, que é um conversor de imagens.

Depois de instalado já podemos testar o Tesseract, para testá-lo encontrei um gif licenciado para reutilização.

Agora vamos ver o que acontece quando executamos tesseract na imagem GIF:

tesseract 2002NY40.gif 1resultado

Agora faça um “menos” em 1 resultado.TXT

menos 1 resultado.TXT

Aqui está a imagem com seu texto:

As configurações padrão deste Tesseract são bastante precisas, geralmente para obter tal precisão que requer treinamento. Vamos tentar outra imagem grátis que encontrei no Wiki Commons, depois de baixá-la execute:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2result

Agora verifique o conteúdo do arquivo.

menos 2resultado.TXT


Esse foi o resultado enquanto o conteúdo da imagem original foi:

A fim de melhorar o reconhecimento de caracteres, temos muitas opções e etapas a seguir que foram detalhadas em nosso tutorial anterior: remoção de bordas, remoção de ruído, otimização de tamanho e rotação de página entre outras funções como cortar.

Para este tutorial, usaremos o textcleaner, um script desenvolvido pela Fred's ImageMagick Scripts.

Baixe o script e execute:

./ textcleaner -g -e estiramento -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.teste de gif.gif

Observação: antes de executar o script, dê a ele permissões de execução executando “chmod + x textcleaner”Como root ou com sudo prefixo.

Onde:

limpador de texto: chama o programa

-g: Converta a imagem em tons de cinza

-e: enache

-f: filterize

-s: sharpamt, quantidade de nitidez de pixel a ser aplicada ao resultado.

Para obter informações e exemplos de uso com textcleaner, visite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Como você pode ver, o textcleaner mudou a cor de fundo, aumentando o contraste entre a fonte e o fundo.

Se executarmos tesseract, provavelmente o resultado será diferente:

teste tesseract.saída de teste de gif

menos saída de teste

Como você pode ver, o resultado realmente melhorou, mesmo quando não é totalmente preciso.

O comando converter fornecido por imagemagick nos permite extrair quadros de imagens GIF para serem processados ​​posteriormente por Tesseract, isso é útil se houver conteúdo extraível em quadros diferentes da imagem GIF.

A sintaxe é simples:

converter

O resultado será gerado como número de arquivos como frames no gif, no exemplo fornecido os resultados seriam: output-0.jpg, output-1.jpg, output-2.jpg, etc.

Em seguida, você pode processá-los com tesseract, instruindo-o a processar todos os arquivos com um caractere curinga salvando o resultado em um único arquivo executando:

para i em output- *; fazer tesseract $ i outputresult; feito;

Imagemagick tem uma grande variedade de opções para otimizar imagens e não há um modo genérico, para cada tipo de cenário você deve ler a página de manual do comando convert.

Espero que você tenha achado este tutorial no Tesseract útil.

Instale o último jogo de estratégia OpenRA no Ubuntu Linux
OpenRA é um motor de jogo de estratégia em tempo real Libre / Free que recria os primeiros jogos Westwood como o clássico Command & Conquer: Red Alert...
Instale o emulador Dolphin mais recente para Gamecube e Wii no Linux
O Dolphin Emulator permite que você jogue seus jogos de Gamecube e Wii escolhidos em computadores pessoais Linux (PC). Sendo um emulador de jogo disp...
Como usar o GameConqueror Cheat Engine no Linux
O artigo cobre um guia sobre como usar o mecanismo de cheat GameConqueror no Linux. Muitos usuários que jogam no Windows costumam usar o aplicativo “C...