Meriv çawa bi Tabula tabloyan ji PDFê veguherîne Excel an CSV

Pdf veguherînin û veguherînin csv û excel

Li daneyên dîrokî yên ku ji hêla dîdevanek meteorolojîk ve li bajarê min hatine pêşkêş kirin digerin, ez wiya dibînim ew tenê wan bi grafîkî û ji bo dakêşanê wekî PDF pêşkêş dikin. Ez fam nakim çima ew nahêlin hûn wan bi csv dakêşin, ku dê ji bo her kesî pir bikêr be.

Ji ber vê yekê ez li yekê digeriyam çareserî ku van tabloyan ji pdf derbasî csv bikin an heke kesek bixwaze Excel an Libre Office format bike. Ez ji csv hez dikim ji ber ku bi csv hûn her tiştî dikin ku hûn dikarin wê bi python û pirtûkxaneyên wê birêve bibin an jî hûn dikarin wê bi hêsanî têxin nav her spreadsheet.

Wekî ku raman ev e ku meriv pêvajoyek otomatîkî bi dest bixe, ya ku ez dixwazim nivîsarek e ku bi Python re bixebite û ev devera ku Tabula tê de ye.

Bi Tabula pdf li csv veguherînin

Gav û kar pir hêsan e. Ya yekem dê bibe pirtûkxaneya Tabula li hawîrdora pêşkeftina me saz bikin. Tabula dihêle ku em ji danezanên di PDFê de danezanên di Pandas de, pirtûkxaneya Python ji bo xebata bi csv û rêzikan çêtirîn bikin.

Ev jî dihêle di navbera PDF, JSON, CSV û TSV de derxînin û veguherînin. Gewreyek. Hûn dikarin di wê de bêtir agahdariyê bibînin depoya github

Abone navnîşa nameya me

Ez ji hemî xebatên ji rojên berê sûd werdigirim û li Anaconda saz dikim. Di lînkê de hûn dikarin çawa bibînin Anaconda saz bikin.

Em Tabula saz dikin

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Dema ku ew darve kirin, ew xeletiyek da min

çareseriya ku di belgeyên wan de diyar kirî ew bû ku guhertoya kevn a Tabula were rakirin û ya nû were saz kirin.

pip uninstall tabula
pip install tabula-py

Em piyala bicîhker diafirînin

ji pdf heta csv maseyan bixwînin

Ez .py ya cîbecîkar diafirînim ku ez jê re dibêjim pdftocsv.py min ew xist peldanka xweya Dakêşanê / eltiempo û ew pel bi kodê jêrîn e

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Ji pdf-a ku bixwîne re tê gotin inforatge.pdf û ez jê re dibêjim ku derketinê ji.csv re tê gotin û ew ê di peldanka ku em tê de dixebitin bimîne.

Em diçin pelrêça ku me hem darveker û hem jî pdf-ya ku em dixwazin veguherînin heye. Ew girîng e ji ber ku ger ew ê ji me re vebêje ku ew nikare pelê bibîne.

cd Descargas/eltiempo

Di vê pelrêçê de PDF, pelê .py ku me çêkiriye û li wir ew ê csv ya ku em dixwazin vegerîne.

Em kodê dimeşînin

python pdftocsv.py

Bala xwe bidinê ku min python bikar aniye, ango ez jê re dibêjim ku wê bi python 2 bimeşîne û ne bi python3 ku têk diçe. That's heke ew xeletiyek venegerîne ev e, jixwe me ew heye.

Tabula di hawîrdora pêşkeftina Anaconda me de bimeşînin

Me ji bo kontrolkirina dema xebitînê 3 rêzên din li pelê zêde kir. di dawiyê de me pelê xwe pdftocsv.py wekî hişt

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Vebijarkên bêtir ji Tabula

Mînakên bêtir ên ku em dikarin bikin. Gelek vebijark hene, çêtirîn e ku meriv bi ser depoya fermî ya Githubê ya ku ji min re maye bigere

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Without bê guman yek ji wan tiştên herî bikêrhatî ye ku hemî pelên PDF, JSON, û hwd di pelrêçê de veguherîne.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Bi vê yekê em dikarin erkên ku wekî din dirêj û westiyayî bin jixweber bikin. Di dawiyê de, ev yek ji sedemên karanîna vê pirtûkxanê ye.

Pdf veguherînin ku li serhêl excel bikin

Heke ya ku em dixwazin ev e ku em pelê bi hêsanî veguherînin, daneyê ji sermasê ji PDF bigire heya Excel, Librecalc an wekî wê, ne hewce ye ku ew ew qas were aloz kirin. Amûrên ji bo vê yekê hene, hin ji bo sazkirinê û hin jî hene ku kar li serhêl pêk tînin.

Min van her du amûrên serhêl ceribandiye û ew pir baş dixebitin.

Bînin bîra xwe ku ev ne karekî otomatîkî ye, û ji ber vê yekê ye ku lêkolîna van amûran têrker nebûye. Ez tenê ji bo wanên ku dibe ku balkêş bin wan şîrove dikim.

Metoda klasîk

Her gav rêbaza meya klasîk, ya herî lewaz û biha heye lê di dawiyê de heke karek hindik hebe ew vebijarkek e.

Cellsaneyên maseyê ji pdf-ê kopî bikin û têxin pelika me.

Leave a comment