N'ileghachi anya na data akụkọ ihe mere eme nke ndị na-ahụ maka ihu igwe na obodo m nyere, m na-ahụ nke ahụ naanị ihe ha na-enye ha bụ nke eserese na ibudata dị ka PDF. Aghọtaghị m ihe kpatara na ha anaghị ekwe ka ibudata ha na csv, nke ga-aba uru maka mmadụ niile.
N'ihi ya, m na-achọ otu Ihe ngwọta iji nyefee tebụl ndị a site na pdf ka csv ma ọ bụ ọ bụrụ na mmadụ chọrọ ịhazi Excel ma ọ bụ Libre Office. Csv na-amasị m n'ihi na csv ị na-eme ihe niile ị nwere ike ijikwa ya na eke na ọba akwụkwọ ya ma ọ bụ na ị nwere ike ibubata ya na mpempe akwụkwọ ọ bụla.
Dika echiche a bu inweta usoro akpaaka, ihe m choro bu ihe ederede iji soro Python rụọ ọrụ ma ebe a ka Tabula batara.
Tụgharịa pdf ka csv na Tabula
Nzọụkwụ na ime ihe dị mfe. Nke mbụ ga-abụ wụnye ụlọ akwụkwọ Tabula na gburugburu ebe obibi anyị. Tabula na-enye anyị ohere iwepu data sitere na tebụl na PDF n'ime Pandas dataframes, Ọbá akwụkwọ Python kachasị mma maka ịrụ ọrụ na csv na arrays.
Ọ na-enyekwa ohere wepụ ma gbanwee n'etiti PDF, JSON, CSV na TSV. A mkpuru iche. Nwere ike ịchọta ọtụtụ ozi ndị ọzọ na ya nchekwa github
Ana m eji ọrụ niile site na ụbọchị ndị gara aga ma wụnye ya na Anaconda. Na njikọ ị pụrụ ịhụ otú wụnye Anaconda.
Anyị na-etinye Tabula
#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py
Mgbe m na-eme ya, o mehiere m
azịza ya dị ka egosiri na akwụkwọ ha bụ iwepụ ụdị Tabula ochie ma wụnye nke ọhụrụ.
pip uninstall tabula
pip install tabula-py
Anyị mepụtara executable .py
M mepụtara executable .py m na-akpọ pdftocsv.py M tinye ya na folda Downloads / eltiempo m na ọ bụ faịlụ na koodu ndị a
import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')
A na-akpọ pdf ịgụ ka inforatge.pdf ma agwa m ya na a na-akpọpụta mpụta out.csv ma ọ ga-anọ na folda anyị na-arụ ọrụ
Anyị na-aga na ndekọ ndekọ ebe anyị nwere ma executable na pdf anyị chọrọ ịtụgharị. Ọ dị mkpa n'ihi na ọ bụrụ na ọ ga-agwa anyị na ọ gaghị achọta faịlụ ahụ.
cd Descargas/eltiempo
N'ime ndekọ a anyị nwere PDF, faịlụ .py nke anyị mepụtara na ebe ọ ga-eweghachi csv anyị chọrọ.
Anyị na-eme koodu ahụ
python pdftocsv.py
Rịba ama na m ji eke, ya bụ, m na-agwa ya ka ọ jiri Python 2 gbaa ya ọsọ ma ọ bụghị site na Python3 nke na-ada ada. Ma nke ahụ bụ ya ma ọ bụrụ na ọ naghị eweghachi ọ bụla njehie, anyị nwere ya.
Anyị atụkwasịla akara atọ ọzọ na faịlụ maka njikwa oge. na njedebe anyị ahapụwo anyị pdftocsv.py faịlụ dị ka
import tabula
import time
start_time = time.time()
df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')
print("--- %s seconds ---" % (time.time() - start_time))
Nhọrọ ndị ọzọ si Tabula
Ihe atụ ndị ọzọ nke ihe anyị nwere ike ime. Enwere ọtụtụ nhọrọ, ọ kachasị mma ịgafe ụlọ ọrụ Github gọọmentị m hapụrụ
# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")
O doro anya na otu n’ime ihe ndị kachasị baa uru iji tọghata faịlụ PDF, JSON, wdg.
tabula.convert_into_by_batch("input_directory", output_format='csv')
Site na nke a, anyị nwere ike ịgbanye ọrụ ga-adị ogologo ma sie ike. Na njedebe, nke a bụ otu n’ime ihe kpatara iji ọba akwụkwọ a.
Tọghata pdf ka mma n'ịntanetị
Ọ bụrụ na ihe anyị chọrọ bụ ịgbanwe faịlụ naanị, wepụ data sitere na tebụl site na PDF gaa Excel, Librecalc ma ọ bụ ndị yiri ya, ọ dịghị mkpa ka anyị mekwuo ya. E nwere ngwaọrụ dị iji mee nke a, ụfọdụ awụnyere na ụfọdụ iji nweta ọrụ ahụ n'ịntanetị.
Agbalịrị m ngwá ọrụ abụọ ndị a n'ịntanetị ma ha na-arụ ọrụ nke ọma.
- https://www.pdftoexcel.com/es
- https://www.pdftoexcelonline.com/es/ arụ ọrụ nke ọma mana zitere gị akwụkwọ ahụ site na mail
Buru n'uche na nke a abụghị ọrụ na-akpaghị aka, ọ bụkwa ya mere ọmụmụ nke ngwaọrụ ndị a ejughi oke. Naanị m na-ekwu maka ha maka ndị nwere ike ịmasị.
Oge gboo
Anyị na-enwekarị usoro kpochapụwo, nke kachasị dị larịị ma dị oke ọnụ mana na njedebe ọ bụ nhọrọ ma ọ bụrụ na obere ọrụ dị.
Detuo mkpụrụ ndụ tebụl site na pdf ma kpoo ha na ntanetị.