Kiel konverti tabelojn de PDF al Excel aŭ CSV per Tabula

Transdoni kaj konverti pdf al CSV kaj Excel

Rigardante la historiajn datumojn ofertitajn de meteologia observatorio en mia urbo, mi vidas tion ili nur ofertas ilin grafike kaj elŝuteblaj kiel PDF. Mi ne komprenas, kial ili ne lasas vin elŝuti ilin en CSV, kio estus multe pli utila por ĉiuj.

Do mi serĉis unu solvo por pasigi ĉi tiujn tabelojn de pdf al csv aŭ se iu volas formati Excel aŭ Libre Office. Mi ŝatas csv ĉar per csv vi faras ĉion, kion vi povas pritrakti per python kaj ĝiaj bibliotekoj aŭ vi povas facile importi ĝin al iu ajn kalkultabelo.

Ĉar la ideo estas atingi aŭtomatan procezon, kion mi volas estas skripto por funkcii kun Python kaj ĉi tie eniras Tabula.

Konverti pdf al CSV per Tabula

La paŝoj kaj funkciado estas tre simplaj. La unua estos instalu la tabulan bibliotekon en nia disvolva medio. Tabula permesas al ni ĉerpi datumojn de tabeloj en PDF en datumajn kadrojn de Pandas, la Python-biblioteko optimumigita por labori kun csv kaj tabeloj.

Ĝi ankaŭ permesas ĉerpi kaj konverti inter PDF, JSON, CSV kaj TSV. Gemo. Vi povas trovi multe pli da informoj en ĝia github-deponejo

Mi profitas la tutan laboron de antaŭaj tagoj kaj instalas ĝin en Anakondo. En la ligilo vi povas vidi kiel instali Anaconda.

Ni instalas Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Ekzekutante ĝin, ĝi donis al mi eraron

la solvo kiel indikita en ilia dokumentado estis malinstali la malnovan version de Tabula kaj instali la novan.

pip uninstall tabula
pip install tabula-py

Ni kreas la plenumeblan .py

legi tabelojn de pdf al csv

Mi kreas la plenumeblan .py, kiun mi nomas pdftocsv.py, mi metas ĝin en mian dosierujon Elŝutoj / eltiempo kaj ĝi estas dosiero kun la sekva kodo.

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

La leginda pdf nomiĝas inforatge.pdf kaj mi diras al ĝi, ke la eligo estas nomata out.csv kaj ĝi restos en la dosierujo, en kiu ni laboras.

Ni iras al la dosierujo, kie ni havas kaj la plenumeblan kaj la pdf, kiun ni volas konverti. Gravas, ĉar se ĝi diros al ni, ke ĝi ne povas trovi la dosieron.

cd Descargas/eltiempo

En ĉi tiu dosierujo ni havas la PDF, la .py-dosieron, kiun ni kreis, kaj tie ĝi redonos la CSV, kiun ni volas.

Ni ekzekutas la kodon

python pdftocsv.py

Rimarku, ke mi uzis python, tio estas, mi diras, ke ĝi funkciigu ĝin per python 2 kaj ne per python3, kiu malsukcesas. Kaj jen ĝi, se ĝi ne donas eraron, ni jam havas ĝin.

funkciigu Tabula en nia Anaconda disvolva medio

Ni aldonis 3 pliajn liniojn al la dosiero por rultempa kontrolo. fine ni lasis nian pdftocsv.py-dosieron kiel

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Pliaj ebloj de Tabula

Pli da ekzemploj de aferoj, kiujn ni povas fari. Estas multaj ebloj, plej bone estas trairi la oficialan Github-deponejon, kiun mi lasis

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Kaj sendube unu el la plej utilaj aferoj por konverti ĉiujn PDF, JSON, ktp dosierojn en dosierujo.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Per ĉi tio ni povas aŭtomatigi taskojn, kiuj alie estus longaj kaj tedaj. Al la fino, ĉi tiu estas unu el la kialoj por uzi ĉi tiun bibliotekon.

Konverti pdf por elstari interrete

Se ni volas simple konverti dosieron, ĉerpi la datumojn de la tabelo de PDF al Excel, Librecalc aŭ simile, ne necesas tiel kompliki ĝin. Estas iloj disponeblaj por fari ĉi tion, iuj por instali kaj iuj por fari la laboron interrete.

Mi provis ĉi tiujn du interretajn ilojn kaj ili funkcias tre bone.

Memoru, ke ĉi tio ne estas aŭtomata laboro, kaj tial la studo de ĉi tiuj iloj ne estis ĝisfunda. Mi nur komentas ilin por tiuj, kiuj eble interesiĝos.

La klasika metodo

Kaj ni ĉiam havas la klasikan metodon, la plej malrapidan kaj multekostan, sed finfine ĝi estas elektebla se malmultas laboro.

Kopiu la tabelajn ĉelojn de la pdf kaj gluu ilin en nian kalkultabelon.

Skribu komenton