Si të shndërroni tabelat nga PDF në Excel ose CSV me Tabula

Kaloni dhe shndërroni pdf në csv dhe excel

Duke parë të dhënat historike të ofruara nga një observator meteorologjik në qytetin tim, unë e shoh këtë ato i ofrojnë ato vetëm grafikisht dhe për t'u shkarkuar si PDF. Nuk e kuptoj pse nuk ju lejojnë t’i shkarkoni në csv, gjë që do të ishte shumë më e dobishme për të gjithë.

Kështu që unë kam qenë në kërkim të një zgjidhje për të kaluar këto tabela nga pdf në csv ose nëse dikush dëshiron të formatojë Excel ose Libre Office. Më pëlqen csv sepse me një csv bën gjithçka që mund ta trajtosh me python dhe bibliotekat e tij ose mund ta importosh lehtësisht në çdo fletëllogaritëse.

Ndërsa ideja është të arrihet një proces i automatizuar, ajo që dua është një skenar për të punuar me Python dhe këtu hyn Tabula.

Shndërroni pdf në csv me Tabula

Hapat dhe funksionimi është shumë i thjeshtë. E para do të jetë instaloni bibliotekën Tabula në mjedisin tonë të zhvillimit. Tabula na lejon të nxjerrim të dhëna nga tabelat në PDF në kornizat e të dhënave Pandas, biblioteka Python e optimizuar për të punuar me csv dhe vargje.

Po ashtu lejon ekstraktoni dhe shndërroni midis PDF, JSON, CSV dhe TSV. Një perlë. Ju mund të gjeni shumë më shumë informacion në të depo github

Suscríbete në listën tonë korrekt

Unë përfitoj nga e gjithë puna nga ditët e mëparshme dhe e instaloj në Anaconda. Në link mund të shihni se si instaloni Anaconda.

Ne instalojmë Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Kur e ekzekutova, më dha një gabim

zgjidhja siç tregohet në dokumentacionin e tyre ishte të çinstaloni versionin e vjetër të Tabula dhe të instaloni atë të ri.

pip uninstall tabula
pip install tabula-py

Ne krijojmë .py të ekzekutueshëm

lexo tabela nga pdf në csv

Krijoj .py të ekzekutueshëm që e quaj pdftocsv.py e vendos në dosjen time Shkarkime / eltiempo dhe është një skedar me kodin e mëposhtëm

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

PDF-ja për të lexuar quhet inforatge.pdf dhe unë i them se rezultati quhet out.csv dhe do të qëndrojë në dosjen në të cilën po punojmë.

Ne shkojmë në direktori ku kemi edhe ekzekutuesin dhe pdf që duam të konvertojmë. Shtë e rëndësishme sepse nëse do të na tregojë se nuk mund ta gjejë skedarin.

cd Descargas/eltiempo

Në këtë direktori kemi PDF-in, skedarin .py që kemi krijuar dhe aty do të kthejë csv-në që duam.

Ne ekzekutojmë kodin

python pdftocsv.py

Vini re që unë kam përdorur python, domethënë, unë i them ta drejtojë me python 2 dhe jo me python3 i cili dështon. Dhe kjo është në qoftë se nuk kthen ndonjë gabim, ne tashmë e kemi atë.

drejtoni Tabula në mjedisin tonë të zhvillimit të Anaconda

Ne kemi shtuar 3 rreshta të tjerë në skedar për kontrollin e ekzekutimit. në fund kemi lënë skedarin tonë pdftocsv.py si

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Më shumë opsione nga Tabula

Më shumë shembuj të gjërave që mund të bëjmë. Ka shumë mundësi, është më mirë të kalosh nëpër depon zyrtare të Github që më ka mbetur

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Dhe pa dyshim një nga gjërat më të dobishme për të kthyer të gjitha skedarët PDF, JSON, etj në një direktori.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Me këtë ne mund të automatizojmë detyra që përndryshe do të ishin të gjata dhe të lodhshme. Në fund, kjo është një nga arsyet e përdorimit të kësaj biblioteke.

Shndërroni pdf në excel online

Nëse ajo që duam është thjesht të konvertojmë një skedar, të nxjerrim të dhënat nga tabela nga PDF në Excel, Librecalc ose të ngjashme, nuk është e nevojshme ta komplikojmë atë aq shumë. Ka mjete në dispozicion për ta bërë këtë, disa për t'u instaluar dhe disa për të kryer punën në internet.

Unë i kam provuar këto dy mjete në internet dhe ato funksionojnë shumë mirë.

Mbani në mend se kjo nuk është një punë e automatizuar, dhe kjo është arsyeja pse studimi i këtyre mjeteve nuk ka qenë shterues. Unë i komentoj vetëm për ata që mund të interesohen.

Metoda klasike

Dhe ne gjithmonë kemi metodën klasike, më të lëngshmen dhe më të shtrenjtën, por në fund të fundit është një mundësi nëse ka pak punë.

Kopjoni qelizat e tryezës nga pdf dhe ngjitini ato në fletën tonë të informacionit.

Lini një koment