Ningali data sajarah anu ditawarkeun ku observatorium météorologi di kota kuring, kuring ningali éta aranjeunna ngan ukur nawiskeun aranjeunna sacara grafis sareng kanggo diunduh salaku PDF. Kuring henteu ngartos naha aranjeunna henteu ngantep anjeun ngaunduh dina csv, anu bakal langkung saé pikeun sadayana.
Janten kuring parantos milarian hiji solusi pikeun ngalirkeun tabél ieu tina pdf ka csv atanapi upami aya anu hoyong pormat Excel atanapi Libre Office. Kuring resep csv sabab ku csv anjeun ngalakukeun sadayana anjeun tiasa méréskeunana nganggo python sareng perpustakaanna atanapi anjeun tiasa sacara gampang ngimpor kana spreadsheet.
Sakumaha ideu na nyaéta pikeun ngahontal prosés anu otomatis, anu kuring pikahoyong nyaéta naskah anu tiasa dianggo sareng Python sareng ieu dimana Tabula datang.
Ngarobih pdf kana csv nganggo Tabula
Léngkah sareng operasi na saderhana pisan. Anu mimiti bakal pasang perpustakaan Tabula di lingkungan pangwangunan urang. Tabula ngamungkinkeun urang nimba data tina tabel dina PDF kana Pandas dataframe, perpustakaan Python dioptimalkeun pikeun damel sareng csv sareng susunan.
Éta ngamungkinkeun ogé nimba sareng ngarobih antara PDF, JSON, CSV sareng TSV. Permata. Anjeun tiasa mendakan langkung seueur inpormasi dina na gudang github
Kuring ngamangpaatkeun sadaya padamelan ti dinten-dinten sateuacan na masangna di Anaconda. Dina tautan anjeun tiasa ningali kumaha install Anaconda.
Urang masang Tabula
#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py
Nalika ngajalankeun éta, éta méré kuring kasalahan
solusi sapertos dituduhkeun dina dokuméntasi aranjeunna nyaéta nyabut vérsi lawas tina Tabula sareng masang anu énggal.
pip uninstall tabula
pip install tabula-py
Kami nyiptakeun .py
Kuring nyiptakeun .py anu tiasa dieksekusi anu kuring nyebat pdftocsv.py kuring nempatkeun kana folder Unduhan / eltiempo kuring sareng éta mangrupikeun file anu nganggo kode ieu
import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')
PDF pikeun dibaca disebat inforatge.pdf sareng kuring nyaritakeun yén kaluaranana disebut out.csv sareng éta bakal tetep dina folder anu urang damel.
Kami angkat kana diréktori dimana kami ngagaduhan anu tiasa dieksekusi sareng pdf anu hoyong kami ngarobih. Éta penting sabab upami éta bakal nyaritakeun yén éta moal tiasa mendakan file na.
cd Descargas/eltiempo
Dina diréktori ieu kami ngagaduhan PDF, file .py anu kami parantos jieun sareng di dinya éta bakal ngabalikeun csv anu dipikahoyong.
Kami ngaéksekusi kode
python pdftocsv.py
Perhatoskeun yén kuring parantos nganggo python, nyaéta, kuring bébéja pikeun ngajalankeunana ku python 2 sareng sanés sareng python3 anu gagal. Sareng éta upami éta henteu ngabalikeun kasalahan, urang parantos ngagaduhan.
Kami parantos nambihan 3 garis deui kana file pikeun pangendali runtime. dina akhirna kami parantos ngantunkeun file pdftocsv.py kami salaku
import tabula
import time
start_time = time.time()
df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')
print("--- %s seconds ---" % (time.time() - start_time))
Pilihan deui ti Tabula
Langkung conto ngeunaan hal-hal anu tiasa urang laksanakeun. Aya seueur pilihan, langkung saé ngalangkungan Repository resmi Github anu kuring tinggalkeun
# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")
Sareng tanpa diragukeun salah sahiji hal anu paling manpaat pikeun ngarobah sadaya file PDF, JSON, jsb dina diréktori.
tabula.convert_into_by_batch("input_directory", output_format='csv')
Kalayan ieu urang tiasa ngajadikeun otomatis tugas anu sanés panjang sareng pikaboseneun. Tungtungna, ieu mangrupikeun salah sahiji alesan pikeun ngagunakeun perpustakaan ieu.
Ngarobih pdf pikeun unggul online
Upami anu dipikahoyong ku kami ngan saukur ngarobih file, nimba data tina tabel ti PDF kana Excel, Libraryecalc atanapi anu sami, teu perlu ngahesekeunana pisan. Aya alat anu sayogi pikeun ngalakukeun ieu, sababaraha kanggo masang sareng sababaraha pikeun ngalaksanakeun padamelan online.
Kuring parantos nyobian dua alat online ieu sareng aranjeunna tiasa dianggo pisan.
- https://www.pdftoexcel.com/es
- https://www.pdftoexcelonline.com/es/ tiasa dianggo saé tapi ngirimkeun anjeun dokumén ku mail
Émut yén ieu sanés padamelan otomatis, sareng éta sababna diajar alat ieu henteu lengkep. Kuring ngan ukur mairan ka aranjeunna pikeun anu panginten.
Metodeu klasik
Sareng urang salawasna ngagaduhan metode klasik, anu paling licik sareng mahal tapi tungtungna éta mangrupikeun pilihan upami aya sakedik padamelan.
Salin sél tabel tina pdf teras lebetkeun kana spreadsheet urang.