U ka fetola litafole joang ho tloha PDF ho ea Excel kapa CSV le Tabula

Fetisa le ho fetolela pdf ho csv le excel

Ha ke sheba nalane ea nalane e fanoang ke setsi sa thuto ea maemo a leholimo toropong ea heso, kea bona li li fa feela ka mokhoa o hlakileng le ho li jarolla e le PDF. Ha ke utloisise hore na hobaneng ba sa u lumelle hore u li jarolle ho csv, e ka bang molemo ho bohle.

Kahoo esale ke ntse ke e batla Tharollo ea ho fetisa litafole tsena ho tloha pdf ho ea csv kapa haeba motho e mong a batla ho fomata Excel kapa Libre Office. Ke rata csv hobane ka csv u ka etsa sohle seo u ka sebetsanang le python le lilaebrari tsa eona kapa u ka e kenya habonolo ho spreadsheet efe kapa efe.

Ha mohopolo e le ho fumana tšebetso e ikemetseng, seo ke se batlang ke sengoloa sa ho sebetsa le Python mme ke mona moo Tabula a kenang teng.

Fetola pdf ho csv le Tabula

Mehato le ts'ebetso li bonolo haholo. Ea pele e tla ba kenya laeborari ea Tabula tikolohong ea rona ea nts'etsopele. Tabula e re lumella ho ntša data ho litafole tsa PDF ho Pandas dataframes, laebrari ea Python e ntlafalitsoeng bakeng sa ho sebetsa le csv le arrays.

E boetse ea lumella ntša le ho fetola lipakeng tsa PDF, JSON, CSV le TSV. Lehakoe. U ka fumana tlhaiso-leseling e batsi ho eona pokello ea github

Ingolise ho lethathamo la rona la mangolo

Ke sebelisa mosebetsi oohle ho tloha matsatsing a fetileng mme ke o kenya ho Anaconda. Ka sehokela u ka bona joang kenya Anaconda.

Re kenya Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Ha e e phetha, e mphile phoso

tharollo joalokaha ho bontšitsoe litokomaneng tsa bona e ne e le ho tlosa mofuta oa khale oa Tabula ebe o kenya e ncha.

pip uninstall tabula
pip install tabula-py

Re theha e sebetsang .py

bala litafole ho tloha pdf ho isa csv

Ke theha e sebetsang .py eo ke e bitsang pdftocsv.py Ke e kenya ka har'a foldara ea ka ea Downloads / eltiempo mme ke faele e nang le khoutu e latelang

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Pdf eo u lokelang ho e bala e bitsoa inforatge.pdf mme kea e joetsa hore tlhahiso e bitsoa out.csv mme e tla lula foldareng eo re sebetsang ho eona.

Re ea bukeng moo re nang le phepelo le pdf tseo re batlang ho li fetolela. Ho bohlokoa hobane haeba e tla re joetsa hore e ka se fumane file.

cd Descargas/eltiempo

Ka har'a sistimi ena re na le PDF, faele ea .py eo re e entseng mme moo e tla khutlisa csv eo re e batlang.

Re etsa khoutu

python pdftocsv.py

Hlokomela hore ke sebelisitse python, ke hore, ke e joetsa hore e e tsamaise ka python 2 eseng ka python3 e sa atleheng. Mme ke phetho haeba e sa khutlise phoso, re se re ntse re na le eona.

tsamaisa Tabula tikolohong ea rona ea nts'etsopele ea Anaconda

Re kentse mela e meng e meraro faeleng bakeng sa taolo ea nako. qetellong re tlohetse faele ea rona ea pdftocsv.py joalo ka

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Likhetho tse ling ho tsoa Tabula

Mehlala e meng ea lintho tseo re ka li etsang. Ho na le likhetho tse ngata, ho molemo ho feta polokelong ea semmuso ea Github eo ke e siileng

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Ntle ho pelaelo e 'ngoe ea lintho tsa bohlokoa ka ho fetisisa ho fetolela lifaele tsohle tsa PDF, JSON, jj ka har'a directory.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Ka sena re ka iketsetsa mesebetsi e neng e tla ba telele le e tenang. Qetellong, lena ke le leng la mabaka a ho sebelisa laeborari ena.

Fetolela pdf hore e ipabole inthaneteng

Haeba seo re se batlang ke ho fetolela faele feela, ho ntša data tafoleng ho tloha ho PDF ho ea Excel, Librecalc kapa e ts'oanang, ha ho hlokahale ho e thatafatsa haholo. Ho na le lisebelisoa tse fumanehang ho etsa sena, tse ling ho li kenya le tse ling ho etsa hore mosebetsi o etsoe inthaneteng.

Ke lekile lisebelisoa tsena tse peli tsa inthanete mme li sebetsa hantle haholo.

Hopola hore ona ha se mosebetsi o ikemetseng, ke ka lebaka leo ho ithuta lisebelisoa tsena ho sa kang ha fella. Ke bua feela ka tsona bakeng sa ba ka bang le thahasello.

Mokhoa oa khale

Mme re lula re na le mokhoa oa khale, o bohlasoa ebile o theko e phahameng empa qetellong ke khetho haeba ho na le mosebetsi o monyane.

Kopitsa lisele tsa tafole ho tsoa ho pdf ebe u li beha ka har'a spreadsheet ea rona.

Siea ho hlahisa maikutlo