Como ler arquivos pdf no Python e no R

Sempre que estudamos data science, uma das primeiras coisas que aprendemos é como importar arquivos no programa que você estiver usando. Quem nunca precisou de um pd.read_csv(), no Python, ou um fread(), no R, que atire a primeira pedra. A questão é que nem sempre temos csv, às vezes queremos, por exemplo, ler um pdf. E é exatamente isso que vamos ver hoje: como ler arquivos pdf no Python e no R!

COMO LER PDF NO PYTHON

Primeiramente, você deve instalar a biblioteca pymupdf. Um simples pip install resolve isso. Para facilitar, vou colocar exatamente o que você irá colocar no seu Jupyter Notebook, desde a instalação do pacote, usando o símbolo de exclamação antes do comando, até a importação e leitura do arquivo.

Bom, já falei bastante, vamos ao exemplo em que importamos um arquivo chamado arquivo.pdf. Como eu disse, vamos usar uma nova biblioteca que possui uma função chamada open() e que, a partir dela, conseguimos ler o arquivo:

# instala o pacote direto no jupyter
!pip install pymupdf

# importa biblioteca
import fitz

# faz a leitura
with fitz.open("arquivo.pdf") as pdf:
    texto = ""
    for pagina in pdf:
        texto += pagina.getText()
texto

Simples, não? Vamos para nossa segunda linguagem hoje…

COMO LER PDF NO R

No R, utilizamos a biblioteca pdftools. Esse comando é meio esquisito ainda para mim, não me acostumei totalmente, mas é tranquilo de usar. Aqui você só precisa memorizar a função pdf_text(). Você só precisa passar o caminho do arquivo e a senha do usuário (o argumento para ela seria pw, se tiver:

install.packages('pdftools')
library('pdftools')

pdftools::pdf_text(pdf = "https://growthecon.com/assets/Wu_EJMR_paper.pdf")

Agora, quem sabe o próximo passo é fazer alguma coisa com NLP, ou montando algum dashboard, um webapp com uma análise do conteúdo do pdf, enfim, inúmeras possibilidades.

GOSTOU? DEIXE SEU FEEDBACK!

E aí? Gostou do conteúdo? Se inscreva para receber todas as novidades. Deixe seu e-mail em INSCREVA-SE na barra à direita, logo abaixo de pesquisar. E, por favor, não deixe de comentar, dar seu feedback e, principalmente, compartilhar com seus amigos. De verdade, isso faz toda a diferença. Além disso, você também pode acompanhar mais do meu trabalho seguindo a conta de Twitter @UniDosDados ou por alguma das redes que você encontra em Sobre o Estatsite / Contato, como meu canal de Youtube Canal Universidade dos Dados.

APROVEITE E ADQUIRA SUA CAMISETA DE DATA SCIENCE NA LOJA DA UNIVERSIDADE DOS DADOS!

Bons estudos!

Um comentário em “Como ler arquivos pdf no Python e no R”

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *