Yuav ua li cas hloov cov ntxhuav ntawm PDF rau Excel lossis CSV nrog Tabula

Tshaj tawm thiab hloov pdf rau csv thiab zoo tshaj

Saib cov ntaub ntawv keeb kwm muaj los ntawm lub chaw nruab ntug hauv huab cua hauv kuv lub nroog, kuv pom tias lawv tsuas muab lawv nraaj thiab rau rub tawm li PDFCov. Kuv tsis nkag siab vim li cas lawv tsis cia koj rub tawm hauv csv, uas yuav muaj txiaj ntsig ntau rau txhua tus.

Yog li kuv twb nrhiav ib qho lawm kev daws teeb meem kom dhau cov ntxhuav ntawm pdf mus rau csv lossis yog ib tus neeg xav ua hom Excel lossis Libre OfficeCov. Kuv nyiam csv vim tias nrog csv koj ua txhua yam koj tuaj yeem kho nws nrog sej thiab nws qhov chaw qiv ntawv lossis koj tuaj yeem yooj yim mus nqa nws mus rau hauv ib daim ntawv hla.

Raws li lub tswv yim yog kom ua tiav qhov kev thov tsis siv neeg, qhov kuv xav tau yog tsab ntawv los ua haujlwm nrog sej thiab qhov no yog qhov twg Tabula nkag los.

Hloov pdf rau csv nrog Tabula

Cov kauj ruam thiab ua haujlwm yog yooj yim heev. Yuav yog thawj tug txhim kho Tsev qiv ntawv Tabula hauv peb qhov chaw tsim khoCov. Tabula tso cai rau peb kom rho tawm cov ntaub ntawv los ntawm cov ntxhuav hauv PDF rau hauv Pandas dataframes, Python lub tsev qiv ntawv tau pom zoo rau kev ua haujlwm nrog csv thiab arrays.

Nws tseem tso cai extract thiab hloov ntawm PDF, JSON, CSV thiab TSVCov. Ib lub pov haum. Koj tuaj yeem pom ntau cov ntaub ntawv hauv nws github chaw cia khoom

Kuv coj tau zoo ntawm txhua qhov haujlwm los ntawm cov hnub dhau los thiab nruab nws hauv Anaconda. Hauv kev txuas koj tuaj yeem pom li cas nruab Anaconda.

Peb nruab Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Thaum ua nws, nws muab kuv yuam kev

cov kev daws teeb meem raws li tau qhia hauv lawv cov ntaub ntawv pov thawj yog txhawm rau tshem cov qub version ntawm Tabula thiab nruab qhov tshiab.

pip uninstall tabula
pip install tabula-py

Peb tsim qhov ua kom tiav .py

nyeem cov ntawv nyeem los ntawm pdf rau csv

Kuv tsim cov executable .py uas kuv hu pdftocsv.py Kuv muab nws tso rau hauv kuv cov Downloads / eltiempo nplaub tshev thiab nws yog ib daim ntawv nrog cov cai hauv qab no

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Daim pdf los nyeem hu ua inforatge.pdf thiab kuv qhia nws tias cov zis hu ua out.csv thiab nws yuav nyob hauv lub nplaub tshev uas peb tab tom ua haujlwm.

Peb mus rau phau ntawv teev npe qhov twg peb muaj ob qho tiav thiab pdf uas peb xav hloov ua lwm yam. Nws yog qhov tseem ceeb vim tias yog nws yuav qhia peb tias nws nrhiav tsis tau daim ntawv no.

cd Descargas/eltiempo

Hauv phau ntawv no peb muaj lub PDF, .py cov ntaub ntawv uas peb tau tsim thiab nyob ntawd nws yuav rov qab csv peb xav tau.

Peb muab qhov txheej txheem

python pdftocsv.py

Daim ntawv ceeb toom tias kuv tau siv cov nab hab sej, uas yog, kuv qhia nws kom nws khiav nrog sej 2 thiab tsis nrog python3 uas ua tsis tiav. Thiab tus ntawd yog nws yog tias nws tsis rov ua qhov yuam kev, peb twb muaj nws lawm.

khiav Tabula hauv peb Anaconda txoj kev loj hlob ib puag ncig

Peb tau ntxiv 3 txoj kab ntxiv rau hauv daim ntawv rau runtime tswj. Thaum kawg peb tau tso peb pdftocsv.py cov ntaub ntawv raws li

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Ntau txoj kev xaiv los ntawm Tabula

Ntau cov piv txwv ntawm tej yam uas peb tuaj yeem ua. Muaj ntau txoj kev xaiv, nws yog qhov zoo tshaj los mus los ntawm cov chaw sawv cev Github uas kuv tau tawm hauv

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Thiab tsis muaj kev poob siab ib qho tseem ceeb tshaj plaws los hloov ua txhua yam PDF, JSON, thiab lwm yam ntaub ntawv hauv cov npe.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Nrog rau qhov no peb tuaj yeem automate cov haujlwm uas yuav txwv tsis pub ntev thiab tsis zoo. Thaum kawg, qhov no yog qhov laj thawj ntawm kev siv lub tsev qiv ntawv no.

Hloov ua lwm yam pdf kom tau zoo online

Yog tias qhov peb xav tau tsuas yog hloov ntaub ntawv, rho tawm cov ntaub ntawv los ntawm lub rooj los ntawm PDF rau Excel, Librecalc lossis zoo sib xws, nws tsis tas yuav ua rau nws ntau heev. Muaj cov cuab yeej pab kom ua tau li no, qee qhov mus nruab thiab qee qhov kom ua tiav txoj haujlwm online.

Kuv tau sim ob cov cuab yeej online thiab lawv ua haujlwm zoo heev.

Nco ntsoov tias qhov no tsis yog ib qho haujlwm ua haujlwm tsis siv neeg, thiab vim li ntawd kev kawm ntawm cov cuab yeej no tsis tau siv zog. Kuv tsuas yog hais qhia rau lawv rau cov uas xav paub.

Cov txheej txheem classical

Thiab peb ib txwm muaj cov qauv qub, feem ntau yog dog dig thiab kim tab sis thaum kawg nws yog qhov kev xaiv yog tias muaj haujlwm tsawg.

Luam cov lej hlwb ntawm lub pdf thiab muab tshuaj rau hauv peb daim ntawv nthuav qhia.

Deja un comentario