A ’coimhead air an dàta eachdraidheil a tha lann-amhairc meteorological a’ tabhann anns a ’bhaile agam, chì mi sin chan eil iad gan tabhann ach gu grafaigeach agus airson an luchdachadh sìos mar PDF. Chan eil mi a ’tuigsinn carson nach leig iad leat an luchdachadh sìos ann an csv, a bhiodh fada nas fheumail don h-uile duine.
Mar sin tha mi air a bhith a ’coimhead airson fear fuasgladh gus na bùird sin a thoirt seachad bho pdf gu csv no ma tha cuideigin airson cruth a chuir air Excel no Libre Office. Is toil leam csv oir le csv bidh thu a ’dèanamh a h-uile rud as urrainn dhut a làimhseachadh le python agus na leabharlannan aige no faodaidh tu a thoirt a-steach gu spreadsheet sam bith gu furasta.
Leis gur e am beachd pròiseas fèin-ghluasadach a choileanadh, is e na tha mi ag iarraidh sgriobt a bhith ag obair le Python agus is ann an seo a thig Tabula a-steach.
Tionndadh pdf gu csv le Tabula
Tha na ceumannan agus an obair gu math sìmplidh. Bidh a ’chiad fhear stàlaich leabharlann Tabula san àrainneachd leasachaidh againn. Leigidh Tabula leinn dàta a tharraing bho chlàran ann an PDF a-steach gu dàta Pandas, leabharlann Python air a mheudachadh airson a bhith ag obair le csv agus arrays.
Leigidh e cuideachd tarraing agus tionndadh eadar PDF, JSON, CSV agus TSV. Seud. Gheibh thu tòrr a bharrachd fiosrachaidh anns na github ath-reic
Bidh mi a ’gabhail brath air an obair gu lèir bho làithean roimhe agus ga stàladh ann an Anaconda. Anns a ’cheangal chì thu ciamar stàlaich Anaconda.
Bidh sinn a ’stàladh Tabula
#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py
Nuair a chuir mi an gnìomh e, thug e mearachd dhomh
b ’e am fuasgladh mar a tha air a chomharrachadh anns na sgrìobhainnean aca an seann dreach de Tabula a dhì-stàladh agus am fear ùr a stàladh.
pip uninstall tabula
pip install tabula-py
Bidh sinn a ’cruthachadh an .py so-ghnìomhaichte
Bidh mi a ’cruthachadh an .py so-ghnìomhaichte ris an can mi pdftocsv.py Chuir mi e anns a’ phasgan Luchdaich sìos / eltiempo agam agus tha e na fhaidhle leis a ’chòd a leanas
import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')
Canar inforatge.pdf ris a ’pdf ri leughadh agus tha mi ag innse dha gur e out.csv a chanar ris an toradh agus fuirichidh e anns a’ phasgan anns a bheil sinn ag obair.
Bidh sinn a ’dol chun eòlaire far a bheil an dà chuid an gnìomh agus am pdf a tha sinn airson a thionndadh. Tha e cudromach oir ma dh ’innseas e dhuinn nach urrainn dha am faidhle a lorg.
cd Descargas/eltiempo
Anns an eòlaire seo tha am PDF againn, am faidhle .py a chruthaich sinn agus an sin tillidh e an csv a tha sinn ag iarraidh.
Bidh sinn a ’cur an gnìomh a’ chòd
python pdftocsv.py
Sanas gu bheil mi air python a chleachdadh, is e sin, tha mi ag innse dha a ruith le python 2 agus chan ann le python3 a tha a ’fàilligeadh. Agus sin e mura till e mearachd sam bith, tha e againn mu thràth.
Tha sinn air 3 loidhnichean a bharrachd a chuir ris an fhaidhle airson smachd runtime. aig an deireadh tha sinn air am faidhle pdftocsv.py fhàgail mar
import tabula
import time
start_time = time.time()
df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')
print("--- %s seconds ---" % (time.time() - start_time))
Barrachd roghainnean bho Tabula
Barrachd eisimpleirean de na rudan as urrainn dhuinn a dhèanamh. Tha mòran roghainnean ann, tha e nas fheàrr a dhol tro stòr oifigeil Github a dh ’fhàg mi
# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")
Agus gun teagamh aon de na rudan as fheumaile airson a h-uile faidhle PDF, JSON, msaa a thionndadh ann an eòlaire.
tabula.convert_into_by_batch("input_directory", output_format='csv')
Le seo, is urrainn dhuinn gnìomhan a dhèanamh fèin-ghluasadach a bhiodh air dhòigh eile fada agus tedious. Aig a ’cheann thall, is e seo aon de na h-adhbharan airson an leabharlann seo a chleachdadh.
Tionndadh pdf gu sàr-mhath air-loidhne
Mas e na tha sinn ag iarraidh ach faidhle a thionndadh, an dàta a thoirt a-mach às a ’chlàr bho PDF gu Excel, Librecalc no a leithid, chan fheumar a dhèanamh nas miosa. Tha innealan rim faighinn airson seo a dhèanamh, cuid airson a stàladh agus cuid airson an obair a dhèanamh air-loidhne.
Tha mi air an dà inneal air-loidhne seo fheuchainn agus tha iad ag obair glè mhath.
- https://www.pdftoexcel.com/es
- https://www.pdftoexcelonline.com/es/ ag obair gu math ach a ’cur an sgrìobhainn thugad tron phost
Cumaibh cuimhne nach e obair fèin-ghluasadach a tha seo, agus is e sin as coireach nach eil sgrùdadh air na h-innealan sin air a bhith iomlan. Cha bhith mi a ’toirt beachd orra ach dhaibhsan aig a bheil ùidh.
An dòigh clasaigeach
Agus bidh an dòigh clasaigeach againn an-còmhnaidh, an fheadhainn as sloppy agus as daoire ach aig a ’cheann thall tha e na roghainn mura h-eil mòran obair ann.
Dèan lethbhreac de na ceallan bùird bhon pdf agus cuir a-steach iad don spreadsheet againn.