Хүснэгтүүдийг PDF-ээс Excel эсвэл CSV руу Tabula ашиглан хэрхэн хөрвүүлэх вэ

Pdf-ийг CSV болон Excel руу дамжуулж хөрвүүл

Миний хотын цаг уурын ажиглалтын газраас санал болгосон түүхэн өгөгдлийг харахад би үүнийг харж байна тэд зөвхөн график хэлбэрээр, PDF хэлбэрээр татаж авахаар санал болгодог. Тэднийг яагаад CSV-ээр татаж авахыг зөвшөөрдөггүйг би ойлгохгүй байна.

Тиймээс би үүнийг хайж байсан Эдгээр хүснэгтүүдийг pdf-ээс csv рүү дамжуулах эсвэл хэн нэгэн Excel эсвэл Libre Office форматлахыг хүсэж байгаа бол. Би CSV-д дуртай тул python болон түүний сангуудаар ажиллах боломжтой бүх зүйлийг хийх боломжтой эсвэл хүссэн хүснэгтэд амархан оруулах боломжтой.

Автоматжуулсан процесст хүрэх гэсэн санаа бол миний хүсч байгаа зүйл бол Python-той ажиллах скрипт бөгөөд Табула орж ирдэг.

Pdf файлыг csv руу Табула ашиглан хөрвүүлэх

Алхам, үйл ажиллагаа нь маш энгийн. Эхнийх нь байх болно манай хөгжлийн орчинд Табула номын санг суулгаарай. Табула нь PDF дээрх хүснэгтүүдээс өгөгдлийг CSS ба массивтай ажиллахад тохирсон Python номын сан болох Pandas датафрейм рүү задлах боломжийг олгодог.

Энэ нь бас зөвшөөрдөг PDF, JSON, CSV болон TSV хооронд хөрвүүлэх. Эрдэнийн чулуу. Та үүнээс илүү их мэдээлэл олж авах боломжтой github сан

Би өмнөх өдрүүдийн бүх ажлыг ашиглаж Anaconda-д суулгасан. Холбоосоос та хэрхэн яаж хийхийг харж болно Анаконда суулгах.

Бид Табула суулгадаг

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

Үүнийг гүйцэтгэх үед энэ нь надад алдаа өгсөн

тэдний баримт бичигт заасны дагуу шийдэл нь Табулагийн хуучин хувилбарыг устгаж, шинэ хувилбарыг суулгах явдал байв.

pip uninstall tabula
pip install tabula-py

Бид гүйцэтгэгддэг .py-г үүсгэдэг

pdf-ээс csv хүртэлх хүснэгтүүдийг унших

Би pdftocsv.py гэж нэрлэдэг гүйцэтгэгддэг .py-г үүсгэдэг. Үүнийг татаж авах / eltiempo фолдерт оруулсан бөгөөд энэ нь дараах кодтой файл юм.

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

Унших pdf файлыг inforatge.pdf гэж нэрлэдэг бөгөөд гаралтыг out.csv гэж нэрлэдэг бөгөөд энэ нь бидний ажиллаж байгаа фолдерт үлдэх болно гэж хэлье.

Бид хөрвүүлэх хүсэлтэй байгаа гүйцэтгэгдэх боломжтой болон pdf файл байгаа директор руу очно уу. Энэ нь файлыг олж чадахгүй байгааг бидэнд хэлэх болно.

cd Descargas/eltiempo

Энэ директорт бид PDF, бидний үүсгэсэн .py файл байгаа бөгөөд энэ нь бидний хүссэн csv-г буцааж өгөх болно.

Бид кодыг ажиллуулдаг

python pdftocsv.py

Би python ашигласан гэдгээ анзаараарай, өөрөөр хэлбэл үүнийг python2-тэй биш харин python 3-той ажиллуул гэж хэлье. Хэрэв энэ нь ямар ч алдаа өгөхгүй бол бид үүнийг аль хэдийн авсан болно.

Табула-г манай Анаконда хөгжүүлэх орчинд ажиллуул

Ажиллах хугацааг хянахын тулд файл дээр 3 мөр нэмж оруулсан. эцэст нь бид pdftocsv.py файлаа үлдээсэн

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Табулагаас бусад сонголтууд

Бидний хийж чадах зүйлсийн илүү олон жишээ. Олон сонголт байдаг, миний үлдээсэн Github албан ёсны репозиторыг үзэх нь дээр

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

Бүх PDF, JSON гэх мэт файлуудыг лавлахад хөрвүүлэх хамгийн хэрэгтэй зүйлсийн нэг бол эргэлзээгүй юм.

tabula.convert_into_by_batch("input_directory", output_format='csv')

Үүний тусламжтайгаар бид удаан, уйтгартай ажлыг автоматжуулж чадна. Эцэст нь энэ нь энэхүү номын санг ашиглах нэг шалтгаан болж байна.

Онлайн хэлбэрээр pdf файлыг хөрвүүлэх

Хэрэв бидний хүсч байгаа зүйл бол файлыг хөрвүүлэх, хүснэгтээс өгөгдлийг PDF-ээс Excel, Librecalc эсвэл үүнтэй төстэй файл руу задлах явдал юм бол үүнийг тийм их төвөгтэй болгох шаардлагагүй юм. Үүнийг хийх хэрэгслүүд байдаг, заримыг нь суулгаж, заримыг нь онлайнаар хийх ажлыг хийх боломжтой байдаг.

Би эдгээр хоёр онлайн хэрэгслийг туршиж үзсэн бөгөөд маш сайн ажилладаг.

Энэ бол автоматжуулсан ажил биш тул ийм хэрэгслийг судлах нь бүрэн гүйцэд хийгдээгүй гэдгийг санаарай. Би зөвхөн тэдний талаар сонирхож магадгүй хүмүүст зориулж тайлбар хийдэг.

Сонгодог арга

Сонгодог арга нь үргэлж хамгийн хайхрамжгүй, үнэтэй байдаг боловч эцэст нь ажил багатай бол энэ нь сонголт юм.

Pdf-ээс хүснэгтийн нүднүүдийг хуулж, манай хүснэгтэд оруулна уу.

Deja НҮБ-ын comentario