PDF

Como extrair tabelas de documentos PDF

Como extrair tabelas de documentos PDF

Este artigo mostrará como extrair tabelas de documentos PDF. Você pode ter muitos arquivos PDF que contêm várias tabelas que deseja usar separadamente. Copiar e colar essas tabelas não é uma boa opção, pois pode não dar a saída esperada, portanto, você precisa de algumas outras opções simples que podem extrair tabelas de um arquivo PDF e salvá-las como arquivos separados.

A maioria destes Ferramentas extrator de mesa PDF não pode ajudar se a tabela PDF for digitalizada. Nesse caso, você deve primeiro tornar o PDF pesquisável e, em seguida, tentar essas opções.

Extraia tabelas de documentos PDF

Nesta postagem, adicionamos 2 serviços online gratuitos e 3 softwares gratuitos para extrair tabelas de um arquivo PDF:

  1. PDF para XLS
  2. PDFtoExcel.com
  3. Tabula
  4. ByteScout PDF Multitool
  5. Sejda PDF Desktop.

1] PDF para XLS

PDF para XLS é uma das melhores opções para extrair tabelas de PDF. Possui dois recursos que o tornam útil. Você pode buscar tabelas de 20 PDF documentos juntos. Além disso, a extração da tabela PDF é automática. Ele gera a saída como um XLSX Arquivo. Se um PDF tiver várias tabelas, cada tabela será armazenada separadamente em diferentes folhas do arquivo XLSX de saída.

Abra a página inicial deste serviço. Depois disso, arraste e solte os arquivos PDF ou use FAZER UPLOAD DE ARQUIVOS botão. Cada PDF carregado é convertido para o arquivo de formato XLSX automaticamente. Quando os arquivos de saída estiverem prontos, você pode baixá-los um por um ou baixar um arquivo ZIP que conterá todos os arquivos de saída.

2] PDFtoExcel.com

PDFtoExcel.O serviço com pode extrair tabelas de um PDF de uma só vez, mas suporta várias plataformas para fazer upload de PDF. Suporta OneDrive, Área de Trabalho, Google Drive, e Dropbox plataformas para fazer upload de um PDF. Além disso, o processo de conversão é automático.

Esta página inicial do serviço está aqui. Lá, selecione uma opção de upload para adicionar PDF. Depois disso, ele carrega e converte automaticamente PDF em arquivo Excel (XLSX). Quando a saída estiver pronta, você receberá o link de download para salvar o arquivo de saída contendo tabelas em PDF.

Observação: Embora este serviço mencione que também pode extrair tabelas de arquivos PDF digitalizados, não funcionou para mim. Você ainda pode tentar para PDF digitalizado.

3] Tabula

Tabula é um software poderoso que pode detectar automaticamente as tabelas presentes em um PDF e, em seguida, permite que você salve essas tabelas como TSV, JSON, ou CSV Arquivo. Você pode selecionar a opção de salvar arquivos CSV separados para cada tabela PDF ou salvar todas as tabelas em um único arquivo CSV.

Para baixar este Código aberto Extrator de mesa PDF, clique aqui. Isso também requer Java para executá-lo e usá-lo com sucesso.

Extraia o arquivo ZIP que você baixou e execute tabula.Exe Arquivo. Irá abrir uma página no seu navegador padrão. Se a página não for aberta, adicione http: // localhost: 8080 em seu navegador e pressione Entrar.

Agora você verá sua interface onde pode usar o Navegar opção para adicionar um PDF. Depois disso, pressione Importar botão. Quando o PDF é adicionado, você pode ver as páginas do PDF em sua interface.

Usar Tabelas de detecção automática botão e irá destacar todas as tabelas presentes naquele PDF automaticamente. Você também pode destacar manualmente uma tabela selecionando uma tabela específica. Se você quiser, você também pode remover tabelas selecionadas da sua escolha.

Isso ajudará você a salvar apenas as tabelas que deseja. Quando as tabelas PDF estiverem destacadas, clique no Pré-visualizar e exportar dados extraídos botão.

Por fim, use o menu suspenso disponível na parte superior para selecionar um formato de saída e pressione Exportar botão. Isso salvará as tabelas PDF no arquivo de formato de saída selecionado por você.

4] Multiferramenta ByteScout PDF

Como o nome sugere, este software vem com várias ferramentas. Possui ferramentas como converter PDF para TIFF de várias páginas, girar documento PDF, tornar PDF insondável, otimizar PDF, adicione uma imagem ao PDF, e mais. O recurso detector de tabelas PDF também está lá, o que é muito bom. A vantagem desta ferramenta é que você pode extrair tabelas de PDF digitalizado também. Você pode detectar tabelas em várias páginas e, em seguida, extrair essas tabelas como CSV, XLS, XML, TXT, ou JSON arquivo de formato. Antes da extração, também permite que você defina um intervalo de páginas para extrair tabelas apenas de páginas especificadas.

Você pode obter este software aqui. Isto é Grátis para uso não comercial só. Após a instalação, execute este software e use Documento Aberto opção para adicionar um PDF. Depois disso, clique no Detectar tabelas ferramenta como destacado na imagem acima. Esta ferramenta está presente em Extração de dados categoria.

Irá abrir uma caixa onde você pode definir condições para detectar tabelas. Por exemplo, você pode definir um número mínimo de colunas, linhas, quebras de linha mínimas entre tabelas, definir o modo de detecção de tabela para tabela com ou sem borda, etc. Use as opções ou mantenha as configurações padrão.

Depois disso, pressione Detectar próxima mesa botão naquela caixa. Ele irá identificar e selecionar uma tabela na página atual. Dessa forma, você pode ir para outra página e detectar mais tabelas.

Quando terminar, use Prossiga para a extração botão e selecione o formato de saída. Finalmente, você pode usar opções para salvar as tabelas da página atual ou definir um intervalo de páginas e salvar a saída.

A ferramenta dá um resultado satisfatório. Mas às vezes, ele pode detectar outro conteúdo em PDF e pode não ser capaz de extrair tabelas de várias páginas. Nesse caso, você deve usá-lo para buscar e salvar as tabelas uma por uma.

5] Sejda PDF Desktop

Sejda PDF Desktop também é um software multiuso. Pode otimizar ou compactar PDF, adicionar marca d'água em PDF, remover restrições de PDF, editar documentos PDF, etc. No entanto, seu plano gratuito tem limitações. No plano gratuito, apenas 3 tarefas por dia podem ser feitas. Além disso, o limite de tamanho do PDF é 50 MB ou 10 páginas.

Você pode usar o seu PDF para Excel ferramenta de conversão para extrair tabelas PDF. Ele detecta automaticamente as tabelas em páginas PDF e permite que você salve essas tabelas como XLSX ou CSV.

Seu link de download está aqui. Após a instalação, use a ferramenta PDF para Excel em sua interface principal. Depois de selecionar essa ferramenta, use Escolha os arquivos PDF botão. Apenas um PDF pode ser adicionado ao plano gratuito.

Quando o PDF for adicionado, ele fornecerá Converter PDF em CSV e Converter PDF para Excel botões. Use um botão e, em seguida, você pode salvar a saída no local desejado em seu PC.

Sua ferramenta de detecção de tabelas PDF é boa. Você não precisa detectar tabelas manualmente. Ainda assim, às vezes pode incluir outro conteúdo de texto como uma tabela PDF e armazená-lo na saída. Mas os resultados gerais são bons.

Isso é tudo.

Estas são algumas boas ferramentas para extrair tabelas de PDF. O software Tabula é mais eficaz do que outras ferramentas. Ainda assim, você pode experimentar todas as ferramentas e verificar quais ajudam.

Leituras semelhantes:

Melhores aplicativos de mapeamento de gamepad para Linux
Se você gosta de jogar no Linux com um gamepad em vez de um teclado típico e sistema de entrada de mouse, existem alguns aplicativos úteis para você. ...
Ferramentas úteis para jogadores de Linux
Se você gosta de jogar no Linux, é provável que tenha usado aplicativos e utilitários como Wine, Lutris e OBS Studio para melhorar a experiência de jo...
Jogos HD Remasterizados para Linux que nunca tiveram uma versão Linux anterior
Muitos desenvolvedores e editores de jogos estão apresentando remasterização em HD de jogos antigos para estender a vida da franquia, por favor, os fã...