Me pehea te huri i nga teepu mai i PDF ki Excel, ki CSV ranei me te Tabula

Tukuna ka huri i te pdf ki te csv kairangi

Ki te tiro i nga korero hitori i tukuna mai e te whare maataki huarere i taku taone nui, kei te kite ahau he whakairoiro anake ta raatau e tuku atu ana hei tango hei PDF. Kaore au i te maarama he aha ratou kaare ai e tuku kia tango koe i a raatau i roto i te csv, he mea pai ake ma te katoa.

Na kua rapu ahau mo tetahi otinga ki te tuku i enei teepu mai i te pdf ki te csv mena ka hiahia tetahi ki te whakatakoto i te Excel me te Tari Whakauru. He pai ki ahau te csv na te mea ka taea e koe ki te mahi i nga mea katoa ka taea e koe te mahi ki te python me ona wharepukapuka ka taea ranei te kawemai ki roto i tetahi ripanga.

I te mea ko te hiahia ki te tiki i tetahi mahi aunoa, ko taku e hiahia ana he tuhinga ki te mahi tahi me Python a koinei te waahi ka uru mai a Tabula.

Hurihia te pdf ki te csv me te Tabula

He tino ngawari nga hikoi me nga mahi. Ko te tuatahi ka whakauruhia te wharepukapuka Tabula ki to taiao whanaketanga. Ma te Tabula e ahei te tango i nga raraunga mai i nga teepu PDF ki nga papaanga raraunga Pandas, ko te wharepukapuka Python kua pai ake mo te mahi me te csv me nga whakariterite

Ka tukua hoki tango me te huri i waenga i te PDF, JSON, CSV me te TSV. He kohatu. Ka kitea e koe etahi atu korero i roto i a ia whare putunga github

Ko te whakapae i te raarangi whakarerekētanga

Ka whakamahia e au nga mahi katoa mai i nga ra o mua ka whakauru ki Anaconda. I roto i te hono ka kite koe me pehea tāuta Anaconda.

Ka whakauruhia e maatau a Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

I a koe e mahi ana, he hapa taku

ko te otinga e whakaaturia ana i roto i a raatau tuhinga ko te tango i te waahanga tawhito o Tabula ka whakauruhia te mea hou.

pip uninstall tabula
pip install tabula-py

Ka hangaia e matou te .py ka taea te kawe

panuihia nga teepu mai i te pdf ki te csv

Ka waihangahia e au te .py ka taea te karanga ka kiia e ahau pdftocsv.py Ka purua e au ki taku kopae Tikiake / eltiempo a he konae me te waehere e whai ake

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Ko te PDF hei panui e kiia ana ko te inforatge.pdf ka kii atu au ko te putanga ka kiia ko out.csv ka noho tonu ki te kopaki e mahi ana maatau.

Ka haere matou ki te raarangi whaiaronga ka taea te whakamahi me te pdf e hiahia ana matou ki te huri. He mea nui na te mea mena ka kii mai koe ki a maatau kaore e kitea e koe te konae.

cd Descargas/eltiempo

I roto i tenei whaiaronga kei a matou te PDF, te .py file i hangaia e matou a i reira ka whakahokia mai te csv e hiahia ana matou.

Ka mahia e matou te waehere

python pdftocsv.py

Panui kua whakamahia e ahau te python, ara, ka kii atu au kia whakahaerehia me te python 2 kaore ki te python3 e kore e tutuki. Ana koira mena kaare e whakahoki mai he hapa, kei a maatau tonu.

whakahaere Tabula i to maatau taiao whanaketanga Anaconda

Kua taapirihia e matou etahi atu raina e 3 ki te konae hei whakahaere i te waa roa. i te mutunga kua waihohia e maatau ta maatau PDFtocsv.py hei

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

He maha atu ano nga whiringa mai i Tabula

He maha ake o nga tauira mo nga mea ka taea e taatau. He maha nga waahanga, he pai ake te haere ki roto i te whare taonga Github mana kua toe atu ki ahau

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Ana kaore e kore ko tetahi o nga mea tino whaihua hei huri katoa i nga konae PDF, JSON, etc. i roto i te raarangi.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Ma tenei ka taea e taatau te mahi aunoa i nga mahi ka roa, ka tino hoha. I te mutunga koinei tetahi o nga take mo te whakamahi i tenei whare pukapuka.

Hurihia te pdf kia hiranga ai i te ipurangi

Mena ko ta maatau e hiahia ana kia whakarereke noa i tetahi konae, tangohia nga raraunga mai i te teepu mai i te PDF ki te Excel, te Whare Pukapuka, me nga mea pera ranei, kaore e tika kia tino uaua rawa atu. Kei te waatea etahi taputapu hei mahi i tenei, ko etahi hei whakauru, ko etahi hei mahi i te mahi aipurangi.

Kua whakamatauria e au enei taputapu ipurangi e rua ana, he tino pai te mahi.

Kia mahara ehara tenei i te mahi noa, na reira kaore i tino pau te ako i enei taputapu. Ka korero noa ahau mo ratou mo te hunga hiahia.

Ko te tikanga puāwaitanga

Ana kei a maatau tonu te tikanga tawhito, ko te mea tino mangere me te utu engari i te mutunga he kowhiringa mena he iti nga mahi.

Tuhia nga teepu teepu mai i te pdf ka whakapiri atu ki ta maatau ripanga.

Waiho i te tākupu