Cumu cunvertisce e tàvule da PDF à Excel o CSV cù Tabula

Passà è cunvertisce pdf in csv è excel

Fighjendu i dati storichi offerti da un osservatoriu meteorologicu in a mo cità, a vecu li offre solu gràficamente è da scaricà cum'è PDF. Ùn capiscu micca perchè ùn vi lascianu micca scaricalli in csv, chì sarebbe assai più utile per tutti.

Cusì aghju cercatu unu suluzione per passà ste tavule da pdf à csv o se qualchissia vole furmàttà Excel o Libre Office. Mi piace csv perchè cù un csv fate tuttu ciò chì pudete gestisce cun Python è e so librerie o pudete facilmente importallu in ogni fogliu di calculu.

Cum'è l'idea hè di uttene un prucessu automatizatu, ciò chì vogliu hè un script per travaglià cù Python è hè quì chì entra Tabula.

Cunvertisce pdf in csv cù Tabula

I passi è l'operazione sò assai semplici. U primu serà installate a libreria Tabula in u nostru ambiente di sviluppu. Tabula ci permette di strae dati da e tàvule in PDF in Pandas dataframes, a libreria Python ottimizzata per travaglià cù csv è matrici.

Permette ancu estratti è cunvertisce trà PDF, JSON, CSV è TSV. Una gemma. Pudete truvà assai più infurmazioni in u so repositoriu github

Arrugà si à a nostra mailing list

Prufittu di tuttu u travagliu di i ghjorni passati è l'installu in Anaconda. In u ligame pudete vede cumu stallà Anaconda.

Installemu Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Quandu l'aghju eseguitu, m'hà datu un errore

a soluzione cum'ella hè stata indicata in a so ducumentazione era di disinstallà a vechja versione di Tabula è installà a nova.

pip uninstall tabula
pip install tabula-py

Creemu u .py eseguibile

leghje e tavule da pdf à csv

Creu u .py eseguibile chì chjamu pdftocsv.py u mettu in u mo cartulare Downloads / eltiempo è hè un fugliale cù u codice seguente

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

U pdf da leghje si chjama inforatge.pdf è li dicu chì l'output hè chjamatu out.csv è resterà in u cartulare in u quale travagliamu.

Andemu à l'annuariu induve avemu sia l'eseguibile sia u pdf chì vulemu cunvertisce. Hè impurtante perchè s'ellu ci dicerà chì ùn pò micca truvà u fugliale.

cd Descargas/eltiempo

In questu annuariu avemu u PDF, u fugliale .py chì avemu creatu è quì restituverà u csv chì vulemu.

Avemu eseguitu u codice

python pdftocsv.py

Fighjate chì aghju usatu python, vale à dì, li dicu di lanciallu cù python 2 è micca cù python3 chì fiasca. È hè tuttu s'ellu ùn restituisce alcun errore, l'avemu digià.

run Tabula in u nostru ambiente di sviluppu Anaconda

Avemu aghjustatu 3 linee in più à u fugliale per u cuntrollu di runtime. à a fine avemu lasciatu u nostru schedariu pdftocsv.py cum'è

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Altre opzioni da Tabula

Più esempi di cose chì pudemu fà. Ci hè parechje opzioni, hè megliu passà per u repositoriu ufficiale di Github chì aghju lasciatu

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

E senza dubbitu una di e cose più utili per cunvertisce tutti i fugliali PDF, JSON, ecc in un repertoriu.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Cù questu pudemu automatizà e cumpetenze chì altrimenti serianu longhe è tediose. À a fine, questu hè unu di i motivi per aduprà sta biblioteca.

Cunvertisce pdf in excel in linea

Se ciò chì vulemu hè di cunvertisce simpliciamente un fugliale, estratta i dati da a tavula da PDF à Excel, Librecalc o simile, ùn hè micca necessariu cumplicallu tantu. Ci sò strumenti dispunibuli per fà questu, alcuni da installà è alcuni per fà u travagliu in ligna.

Aghju pruvatu sti dui strumenti in ligna è travaglianu assai bè.

Tenite à mente chì questu ùn hè micca un travagliu automatizatu, è hè per quessa chì u studiu di sti strumenti ùn hè micca statu esaustivu. I cummentanu solu per quelli chì ponu esse interessati.

U metudu classicu

È avemu sempre u metudu classicu, u più sciattu è caru ma à a fine hè una opzione se ci hè pocu travagliu.

Copia e cellule di u tavulu da u pdf è incollate in u nostru fogliu di calculu.

Lascià un cumentu