Conas táblaí a thiontú ó PDF go Excel nó CSV le Tabula

Pas agus tiontaigh pdf go csv agus barr feabhais

Ag féachaint ar na sonraí stairiúla a thairgeann réadlann meitéareolaíochta i mo chathair, feicim sin ní thairgeann siad ach iad go grafach agus le híoslódáil mar PDF. Ní thuigim cén fáth nach ligeann siad duit iad a íoslódáil i csv, rud a bheadh ​​i bhfad níos úsáidí do gach duine.

Mar sin bhí ceann á lorg agam réiteach chun na táblaí seo a rith ó pdf go csv nó más mian le duine Excel nó Office Libre a fhormáidiú. Is maith liom csv mar le csv déanann tú gach rud is féidir leat é a láimhseáil le python agus lena leabharlanna nó is féidir leat é a iompórtáil go héasca in aon scarbhileog.

Toisc gurb é an smaoineamh próiseas uathoibrithe a bhaint amach, is é an rud atá uaim ná script a bheith ag obair le Python agus seo an áit a dtagann Tabula isteach.

Tiontaigh pdf go csv le Tabula

Tá na céimeanna agus an oibríocht an-simplí. Beidh an chéad cheann leabharlann Tabula a shuiteáil inár dtimpeallacht forbartha. Ligeann Tabula dúinn sonraí a bhaint as táblaí i bhformáid PDF i mbunachair sonraí Pandas, leabharlann Python optamaithe le haghaidh oibriú le csv agus eagair.

Ligeann sé freisin sliocht agus tiontú idir PDF, JSON, CSV agus TSV. GEM. Is féidir leat i bhfad níos mó faisnéise a fháil ina stór github

Bainim leas as an obair go léir ó laethanta roimhe seo agus cuirim isteach é in Anaconda. Sa nasc is féidir leat a fheiceáil conas shuiteáil Anaconda.

Suiteáilimid Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Agus é á fhorghníomhú, thug sé botún dom

ba é an réiteach mar a léirítear ina ndoiciméadacht an seanleagan de Tabula a dhíshuiteáil agus an ceann nua a shuiteáil.

pip uninstall tabula
pip install tabula-py

Cruthaímid an .py inrite

léigh táblaí ó pdf go csv

Cruthaím an .py inrite a thugaim pdftocsv.py Cuirim é i mo fhillteán Íoslódálacha / eltiempo agus is comhad é leis an gcód seo a leanas

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Tugtar inforatge.pdf ar an pdf atá le léamh agus deirim leis go dtugtar out.csv ar an aschur agus fanfaidh sé san fhillteán ina bhfuilimid ag obair.

Téimid chuig an eolaire ina bhfuil an inrite agus an pdf atáimid ag iarraidh a thiontú. Tá sé tábhachtach mar má inseoidh sé dúinn nach féidir leis an comhad a aimsiú.

cd Descargas/eltiempo

San eolaire seo tá an PDF againn, an comhad .py atá cruthaithe againn agus ansin fillfidh sé an csv a theastaíonn uainn.

Déanaimid an cód a fhorghníomhú

python pdftocsv.py

Tabhair faoi deara gur úsáid mé python, is é sin, deirim leis é a rith le python 2 agus ní le python3 a mhainníonn. Agus sin é mura dtugann sé aon earráid ar ais, tá sé againn cheana féin.

reáchtáil Tabula inár dtimpeallacht forbartha Anaconda

Chuireamar 3 líne bhreise leis an gcomhad le haghaidh rialú runtime. ag an deireadh d’fhágamar ár gcomhad pdftocsv.py mar

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Tuilleadh roghanna ó Tabula

Tuilleadh samplaí de rudaí is féidir linn a dhéanamh. Tá go leor roghanna ann, is fearr dul tríd stór oifigiúil Github atá fágtha agam

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Agus gan amhras ceann de na rudaí is úsáidí chun gach comhad PDF, JSON, srl a thiontú i eolaire.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Leis seo is féidir linn tascanna a uathoibriú a bheadh ​​fada agus slachtmhar murach sin. Sa deireadh, seo ceann de na cúiseanna leis an leabharlann seo a úsáid.

Tiontaigh pdf chun barr feabhais a chur ar líne

Más é atá uainn ach comhad a thiontú, na sonraí a bhaint den tábla ó PDF go Excel, Librecalc nó a leithéid, ní gá an oiread sin a dhéanamh níos casta. Tá uirlisí ar fáil chun é seo a dhéanamh, cuid acu le suiteáil agus cuid eile chun an post a dhéanamh ar líne.

Bhain mé triail as an dá uirlis ar líne seo agus oibríonn siad go han-mhaith.

Coinnigh i gcuimhne nach post uathoibrithe é seo, agus is é sin an fáth nach raibh staidéar na n-uirlisí seo uileghabhálach. Ní dhéanaim trácht orthu ach dóibh siúd a bhféadfadh spéis a bheith acu ann.

An modh clasaiceach

Agus bíonn an modh clasaiceach againn i gcónaí, an ceann is sloppy agus is costasaí ach sa deireadh is rogha é mura bhfuil mórán oibre ann.

Cóipeáil na cealla tábla ón pdf agus greamaigh iad inár scarbhileog.

Fág tagairt