Esi esi gbanwee tebụl site na PDF ka Excel ma ọ bụ CSV na Tabula

Gafere ma gbanwee pdf ka csv ma ​​mekwaa

N'ileghachi anya na data akụkọ ihe mere eme nke ndị na-ahụ maka ihu igwe na obodo m nyere, m na-ahụ nke ahụ naanị ihe ha na-enye ha bụ nke eserese na ibudata dị ka PDF. Aghọtaghị m ihe kpatara na ha anaghị ekwe ka ibudata ha na csv, nke ga-aba uru maka mmadụ niile.

N'ihi ya, m na-achọ otu Ihe ngwọta iji nyefee tebụl ndị a site na pdf ka csv ma ​​ọ bụ ọ bụrụ na mmadụ chọrọ ịhazi Excel ma ọ bụ Libre Office. Csv na-amasị m n'ihi na csv ị na-eme ihe niile ị nwere ike ijikwa ya na eke na ọba akwụkwọ ya ma ọ bụ na ị nwere ike ibubata ya na mpempe akwụkwọ ọ bụla.

Dika echiche a bu inweta usoro akpaaka, ihe m choro bu ihe ederede iji soro Python rụọ ọrụ ma ebe a ka Tabula batara.

Tụgharịa pdf ka csv na Tabula

Nzọụkwụ na ime ihe dị mfe. Nke mbụ ga-abụ wụnye ụlọ akwụkwọ Tabula na gburugburu ebe obibi anyị. Tabula na-enye anyị ohere iwepu data sitere na tebụl na PDF n'ime Pandas dataframes, Ọbá akwụkwọ Python kachasị mma maka ịrụ ọrụ na csv na arrays.

Ọ na-enyekwa ohere wepụ ma gbanwee n'etiti PDF, JSON, CSV na TSV. A mkpuru iche. Nwere ike ịchọta ọtụtụ ozi ndị ọzọ na ya nchekwa github

Denye aha na listi nzipu ozi anyi

Ana m eji ọrụ niile site na ụbọchị ndị gara aga ma wụnye ya na Anaconda. Na njikọ ị pụrụ ịhụ otú wụnye Anaconda.

Anyị na-etinye Tabula

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Mgbe m na-eme ya, o mehiere m

azịza ya dị ka egosiri na akwụkwọ ha bụ iwepụ ụdị Tabula ochie ma wụnye nke ọhụrụ.

pip uninstall tabula
pip install tabula-py

Anyị mepụtara executable .py

gụọ tebụl site na pdf ka csv

M mepụtara executable .py m na-akpọ pdftocsv.py M tinye ya na folda Downloads / eltiempo m na ọ bụ faịlụ na koodu ndị a

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

A na-akpọ pdf ịgụ ka inforatge.pdf ma agwa m ya na a na-akpọpụta mpụta out.csv ma ​​ọ ga-anọ na folda anyị na-arụ ọrụ

Anyị na-aga na ndekọ ndekọ ebe anyị nwere ma executable na pdf anyị chọrọ ịtụgharị. Ọ dị mkpa n'ihi na ọ bụrụ na ọ ga-agwa anyị na ọ gaghị achọta faịlụ ahụ.

cd Descargas/eltiempo

N'ime ndekọ a anyị nwere PDF, faịlụ .py nke anyị mepụtara na ebe ọ ga-eweghachi csv anyị chọrọ.

Anyị na-eme koodu ahụ

python pdftocsv.py

Rịba ama na m ji eke, ya bụ, m na-agwa ya ka ọ jiri Python 2 gbaa ya ọsọ ma ọ bụghị site na Python3 nke na-ada ada. Ma nke ahụ bụ ya ma ọ bụrụ na ọ naghị eweghachi ọ bụla njehie, anyị nwere ya.

na-agba Tabula na gburugburu ebe obibi Anaconda anyị

Anyị atụkwasịla akara atọ ọzọ na faịlụ maka njikwa oge. na njedebe anyị ahapụwo anyị pdftocsv.py faịlụ dị ka

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Nhọrọ ndị ọzọ si Tabula

Ihe atụ ndị ọzọ nke ihe anyị nwere ike ime. Enwere ọtụtụ nhọrọ, ọ kachasị mma ịgafe ụlọ ọrụ Github gọọmentị m hapụrụ

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

O doro anya na otu n’ime ihe ndị kachasị baa uru iji tọghata faịlụ PDF, JSON, wdg.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Site na nke a, anyị nwere ike ịgbanye ọrụ ga-adị ogologo ma sie ike. Na njedebe, nke a bụ otu n’ime ihe kpatara iji ọba akwụkwọ a.

Tọghata pdf ka mma n'ịntanetị

Ọ bụrụ na ihe anyị chọrọ bụ ịgbanwe faịlụ naanị, wepụ data sitere na tebụl site na PDF gaa Excel, Librecalc ma ọ bụ ndị yiri ya, ọ dịghị mkpa ka anyị mekwuo ya. E nwere ngwaọrụ dị iji mee nke a, ụfọdụ awụnyere na ụfọdụ iji nweta ọrụ ahụ n'ịntanetị.

Agbalịrị m ngwá ọrụ abụọ ndị a n'ịntanetị ma ha na-arụ ọrụ nke ọma.

Buru n'uche na nke a abụghị ọrụ na-akpaghị aka, ọ bụkwa ya mere ọmụmụ nke ngwaọrụ ndị a ejughi oke. Naanị m na-ekwu maka ha maka ndị nwere ike ịmasị.

Oge gboo

Anyị na-enwekarị usoro kpochapụwo, nke kachasị dị larịị ma dị oke ọnụ mana na njedebe ọ bụ nhọrọ ma ọ bụrụ na obere ọrụ dị.

Detuo mkpụrụ ndụ tebụl site na pdf ma kpoo ha na ntanetị.

Deja un comentario