Yadda zaka canza tebur daga PDF zuwa Excel ko CSV tare da Tabula

Wucewa da canza pdf zuwa csv kuma suyi fice

Idan aka duba bayanan tarihi da wani jami'in lura da yanayi ya bayar a garin na, na ga hakan suna ba su kawai ta hanyar zane da kuma sauke kamar yadda PDF. Ban fahimci dalilin da ya sa ba za su bari ku zazzage su a cikin csv ba, wanda zai zama da amfani ga kowa.

Don haka nayi ta neman daya mafita don wuce waɗannan teburin daga pdf zuwa csv ko kuma idan wani yana son tsara Excel ko Libre Office. Ina son csv saboda da csv zaka yi duk abinda zaka iya mu'amala dashi da Python da dakunan karatu ko zaka iya shigo dasu cikin kowane shimfidar bayanai.

Kamar yadda ra'ayin shine don samun tsari na atomatik, abin da nake so shine rubutun don aiki tare da Python kuma a nan ne Tabula ta shigo.

Sanya pdf zuwa csv tare da Tabula

Matakai da aiki suna da sauƙi. Na farko zai kasance shigar da laburaren Tabula a cikin yanayin ci gaban mu. Tabula yana bamu damar cire bayanai daga tebur a cikin PDF a cikin bayanan Pandas, ɗakin karatun Python an gyara shi don aiki tare da csv da tsararru.

Hakanan yana ba da izini cirewa da sauyawa tsakanin PDF, JSON, CSV da TSV. Gem. Kuna iya samun ƙarin bayani da yawa a ciki ma'ajiyar github

Biyan kuɗi zuwa jerin aikawasiku

Ina amfani da duk aikin daga kwanakin da suka gabata kuma girka shi a cikin Anaconda. A cikin mahaɗin zaku iya ganin yadda shigar Anaconda.

Mun shigar da Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Lokacin aiwatar da shi, ya ba ni kuskure

maganin kamar yadda aka nuna a cikin takardun su shine cire tsohuwar hanyar Tabula da shigar da sabon.

pip uninstall tabula
pip install tabula-py

Mun kirkiro executable .py

karanta tebur daga pdf zuwa csv

Na kirkiro wanda za'a iya aiwatarwa .py wanda nake kira pdftocsv.py Na sanya shi a cikin folda na Downloads / eltiempo kuma fayel ne mai lambar mai zuwa

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Pdf don karantawa ana kiransa inforatge.pdf kuma ina gaya masa cewa ana kiran fitarwa out.csv kuma zai zauna a cikin fayil ɗin da muke aiki.

Muna zuwa kundin adireshi inda muke da masu aiwatarwa da kuma pdf da muke son canzawa. Yana da mahimmanci saboda idan zai gaya mana cewa ba zai iya samo fayil ɗin ba.

cd Descargas/eltiempo

A cikin wannan kundin adireshin muna da PDF, fayil ɗin .py da muka ƙirƙira kuma a can zai dawo da csv ɗin da muke so.

Muna aiwatar da lambar

python pdftocsv.py

Ka lura cewa nayi amfani da Python, ma'ana, na gaya mata ta gudanar dashi da Python 2 ba tare da Python3 da ya gaza ba. Kuma wannan kenan idan bata dawo da wani kuskure ba, muna da ita.

gudanar da Tabula a cikin yanayin ci gaban Anaconda

Mun kara wasu layuka 3 a cikin fayil din don sarrafa lokacin gudu. a karshen mun bar fayil din mu na pdftocsv.py kamar

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Optionsarin zaɓuɓɓuka daga Tabula

Examplesarin misalan abubuwan da za mu iya yi. Akwai zaɓuɓɓuka da yawa, ya fi kyau in bi ta cikin gidan ajiyar Github da na bari

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Kuma ba tare da wata shakka ba ɗayan abubuwa masu amfani don canza duk fayilolin PDF, JSON, da sauransu a cikin kundin adireshi.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Tare da wannan zamu iya sanya aikin kai tsaye wanda in ba haka ba zai kasance mai tsayi da wahala. A ƙarshe, wannan yana ɗaya daga cikin dalilan amfani da wannan laburaren.

Maida pdf yayi fice ta kan layi

Idan abin da muke so shine kawai canza fayil, cire bayanai daga tebur daga PDF zuwa Excel, Librecalc ko makamancin haka, ba lallai ba ne a rikitar da shi sosai. Akwai kayan aikin da za'a iya yin hakan, wasu su girka wasu kuma su samu aikin ta yanar gizo.

Na gwada waɗannan kayan aikin kan layi guda biyu kuma suna aiki sosai.

Ka tuna cewa wannan ba aiki ne na atomatik ba, kuma wannan shine dalilin da yasa binciken waɗannan kayan aikin bai cika ba. Ina yin sharhi ne kawai a kansu ga waɗanda suke so.

Hanyar gargajiya

Kuma koyaushe muna da hanyar gargajiya, mafi tsada da tsada amma a ƙarshe zaɓi ne idan akwai ƙananan aiki.

Kwafi ɗakunan tebur daga pdf ɗin kuma liƙa su a cikin falle ɗinmu.

Deja un comentario