Sida loo beddelo miisaska laga bilaabo PDF-ka illaa Excel ama CSV oo ay la socdaan Tabula

Gudub oo u beddel pdf-ka csv oo sii dheeree

Markaan fiirinayo xogta taariikhiga ah ee ay bixiso goob ilaaliyaasha saadaasha hawada ee magaaladeyda, waan arkaa taas waxay ku bixiyaan oo keliya iyaga garaaf ahaan iyo u soo dejisan sida PDF. Ma fahmin sababta aysan kuugu ogolaaneynin inaad kala soo baxdo csv, taasoo waxtar badan u yeelan laheyd qof walba.

Marka waxaan raadinayay mid xalka in miisaskan laga gudbiyo pdf ilaa csv ama hadii qof doonayo inuu qaabeeyo Excel ama Xafiiska Libre. Waan jeclahay csv maxaa yeelay csv waxaad ku samaysaa waxkasta oo aad kula qabsan karto Python-ka iyo maktabadaha ama waxaad si fudud ugu soo dhoofsan kartaa waraaqo kasta.

Maaddaama fikraddu tahay in la helo nidaam otomaatig ah, waxa aan doonayo waa qoraal la shaqeeya Python waana halka ay Tabula ka soo gasho.

U beddel pdf csv oo wata Tabula

Tallaabooyinka iyo hawlgalku waa mid aad u fudud. Midka koowaad wuxuu noqon doonaa ku rakib maktabada Tabula deegaankeena horumarinta. Tabula waxay noo ogolaaneysaa inaan ka soo saarno xogta miisaska ku jira PDF-ka una soo qaadno xogta Pandas, maktabada Python oo lagu hagaajiyay la shaqeynta csv iyo arrays

Sidoo kale way oggol tahay soosaar oo ubadal inta udhaxeysa PDF, JSON, CSV iyo TSV. Jawharad Waxaad ka heli kartaa macluumaad intaa ka badan oo ku jira keyd github

Waxaan ka faa'iideystaa dhammaan shaqooyinka maalmihii hore oo waxaan ku rakibaa Anaconda. Xiriiriyaha waxaad ku arki kartaa sida rakibi Anaconda.

Waxaan rakibnaa Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Markii aan fulinayay, qalad ayay i siisay

xalka sida ku cad dukumiintigooda wuxuu ahaa in meesha laga saaro noocii hore ee Tabula lana rakibo midka cusub.

pip uninstall tabula
pip install tabula-py

Waxaan abuureynaa .py

aqriso miisaska pdf ilaa csv

Waxaan abuurayaa fulin karo .py oo aan ugu yeero pdftocsv.py Waxaan galiyay galkeyga Downloads / eltiempo waana feyl leh koodhka soo socda

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Pdf si aad u aqriso waxaa la dhahaa inforatge.pdf waxaanan u sheegayaa in wax soo saarka la yiraahdo out.csv oo wuxuu ku sii nagaan doonaa galka aan ku shaqeyneyno.

Waxaan tagnaa diiwaanka aan ku leenahay labada fulin iyo pdf ee aan rabno inaan u beddelno. Waa muhiim maxaa yeelay haddii ay noo sheegi doonto inaysan heli karin faylka.

cd Descargas/eltiempo

Buuggan waxaan ku haynaa PDF-ka, feylka .py ee aan abuurnay halkaas ayeyna ku soo celin doontaa csv aan dooneyno.

Waxaan fulinaa koodhka

python pdftocsv.py

U fiirso in aan isticmaalay Python, taasi waa, waxaan u sheegayaa in ay ku maamusho Python 2 oo aan la isticmaalin Python3 oo guuldareysato. Waana taas haddii aysan soo celin qalad kasta, horey ayaan u haysannaa.

ku socod Tabula deegaankeena horumarinta Anaconda

Waxaan faylka ku darnay 3 khad oo kale oo ah xakamaynta waqtiga shaqada. dhamaadka waxaan uga tagnay feylkeena pdftocsv.py sida

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Fursado badan oo ka socda Tabula

Tusaalooyin badan oo ah waxyaabaha aan sameyn karno. Waxaa jira xulashooyin badan, waxaa ugufiican in loo maro keydka rasmiga ah ee Github ee aan ka tagay

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Shaki la'aanna waa mid ka mid ah waxyaabaha ugu faa'iidada badan ee loo rogo dhammaan faylasha PDF, JSON, iwm.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Tan waxaan ku qalabayn karnaa shaqooyinka haddii kale ahaan lahaa kuwa dhaadheer oo daal badan. Ugu dambeyntiina, tani waa mid ka mid ah sababaha loo adeegsado maktabaddan.

U beddel pdf si aad ugu fiicnaato khadka tooska ah

Haddii waxa aan dooneyno ay tahay in si fudud loo beddelo feyl, laga soo saaro xogta miiska miiska laga soo bilaabo PDF-ka illaa Excel, Librecalc ama wax la mid ah, muhiim maahan in si aad ah loo adkeeyo. Waxaa jira qalab la heli karo oo tan lagu sameeyo, qaar in la rakibo iyo qaar shaqada lagu qabto qadka.

Waxaan isku dayay labadan qalab ee khadka tooska ah sifiican ayeyna u shaqeeyaan.

Maskaxda ku hay in tani aysan ahayn shaqo otomaatig ah, waana taas sababta daraasadda qalabkan aysan u noqon mid dhammaystiran. Kaliya waxaan uga faaloodaa kuwa xiisaynaya.

Habka caadiga ah

Had iyo jeerna waxaan leenahay habka caadiga ah, midka ugu jilicsan uguna qaalisan laakiin ugu dambeyntii waa ikhtiyaar haddii ay yar tahay shaqo.

Nuqul unugyada miiska pdf-ka oo ku dheji xaashiyahayaga isbiriidhshiitka.

Haddii aad tahay qof nasasho la'aan sida annaga oo kale oo aad rabto in aad iska kaashato dayactirka iyo hagaajinta mashruuca, waxaad samayn kartaa tabaruc. Dhammaan lacagta ayaa ku bixi doonta in lagu soo iibiyo buugaag iyo agab si loo tijaabiyo oo loo sameeyo casharro

Tomato comentario un