Ag féachaint ar na sonraí stairiúla a thairgeann réadlann meitéareolaíochta i mo chathair, feicim sin ní thairgeann siad ach iad go grafach agus le híoslódáil mar PDF. Ní thuigim cén fáth nach ligeann siad duit iad a íoslódáil i csv, rud a bheadh i bhfad níos úsáidí do gach duine.
Mar sin bhí ceann á lorg agam réiteach chun na táblaí seo a rith ó pdf go csv nó más mian le duine Excel nó Office Libre a fhormáidiú. Is maith liom csv mar le csv déanann tú gach rud is féidir leat é a láimhseáil le python agus lena leabharlanna nó is féidir leat é a iompórtáil go héasca in aon scarbhileog.
Toisc gurb é an smaoineamh próiseas uathoibrithe a bhaint amach, is é an rud atá uaim ná script a bheith ag obair le Python agus seo an áit a dtagann Tabula isteach.
Tiontaigh pdf go csv le Tabula
Tá na céimeanna agus an oibríocht an-simplí. Beidh an chéad cheann leabharlann Tabula a shuiteáil inár dtimpeallacht forbartha. Ligeann Tabula dúinn sonraí a bhaint as táblaí i bhformáid PDF i mbunachair sonraí Pandas, leabharlann Python optamaithe le haghaidh oibriú le csv agus eagair.
Ligeann sé freisin sliocht agus tiontú idir PDF, JSON, CSV agus TSV. GEM. Is féidir leat i bhfad níos mó faisnéise a fháil ina stór github
Bainim leas as an obair go léir ó laethanta roimhe seo agus cuirim isteach é in Anaconda. Sa nasc is féidir leat a fheiceáil conas shuiteáil Anaconda.
Suiteáilimid Tabula
#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py
Agus é á fhorghníomhú, thug sé botún dom
ba é an réiteach mar a léirítear ina ndoiciméadacht an seanleagan de Tabula a dhíshuiteáil agus an ceann nua a shuiteáil.
pip uninstall tabula
pip install tabula-py
Cruthaímid an .py inrite
Cruthaím an .py inrite a thugaim pdftocsv.py Cuirim é i mo fhillteán Íoslódálacha / eltiempo agus is comhad é leis an gcód seo a leanas
import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')
Tugtar inforatge.pdf ar an pdf atá le léamh agus deirim leis go dtugtar out.csv ar an aschur agus fanfaidh sé san fhillteán ina bhfuilimid ag obair.
Téimid chuig an eolaire ina bhfuil an inrite agus an pdf atáimid ag iarraidh a thiontú. Tá sé tábhachtach mar má inseoidh sé dúinn nach féidir leis an comhad a aimsiú.
cd Descargas/eltiempo
San eolaire seo tá an PDF againn, an comhad .py atá cruthaithe againn agus ansin fillfidh sé an csv a theastaíonn uainn.
Déanaimid an cód a fhorghníomhú
python pdftocsv.py
Tabhair faoi deara gur úsáid mé python, is é sin, deirim leis é a rith le python 2 agus ní le python3 a mhainníonn. Agus sin é mura dtugann sé aon earráid ar ais, tá sé againn cheana féin.
Chuireamar 3 líne bhreise leis an gcomhad le haghaidh rialú runtime. ag an deireadh d’fhágamar ár gcomhad pdftocsv.py mar
import tabula
import time
start_time = time.time()
df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')
print("--- %s seconds ---" % (time.time() - start_time))
Tuilleadh roghanna ó Tabula
Tuilleadh samplaí de rudaí is féidir linn a dhéanamh. Tá go leor roghanna ann, is fearr dul tríd stór oifigiúil Github atá fágtha agam
# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")
Agus gan amhras ceann de na rudaí is úsáidí chun gach comhad PDF, JSON, srl a thiontú i eolaire.
tabula.convert_into_by_batch("input_directory", output_format='csv')
Leis seo is féidir linn tascanna a uathoibriú a bheadh fada agus slachtmhar murach sin. Sa deireadh, seo ceann de na cúiseanna leis an leabharlann seo a úsáid.
Tiontaigh pdf chun barr feabhais a chur ar líne
Más é atá uainn ach comhad a thiontú, na sonraí a bhaint den tábla ó PDF go Excel, Librecalc nó a leithéid, ní gá an oiread sin a dhéanamh níos casta. Tá uirlisí ar fáil chun é seo a dhéanamh, cuid acu le suiteáil agus cuid eile chun an post a dhéanamh ar líne.
Bhain mé triail as an dá uirlis ar líne seo agus oibríonn siad go han-mhaith.
- https://www.pdftoexcel.com/es
- https://www.pdftoexcelonline.com/esoibríonn sé go breá ach seolann sé an doiciméad chugat tríd an bpost
Coinnigh i gcuimhne nach post uathoibrithe é seo, agus is é sin an fáth nach raibh staidéar na n-uirlisí seo uileghabhálach. Ní dhéanaim trácht orthu ach dóibh siúd a bhféadfadh spéis a bheith acu ann.
An modh clasaiceach
Agus bíonn an modh clasaiceach againn i gcónaí, an ceann is sloppy agus is costasaí ach sa deireadh is rogha é mura bhfuil mórán oibre ann.
Cóipeáil na cealla tábla ón pdf agus greamaigh iad inár scarbhileog.