टॅबला पीडीएफ वरून एक्सेल किंवा सीएसव्हीमध्ये तबलासह रूपांतरित कसे करावे

पास करा आणि पीडीएफला सीएसव्ही आणि एक्सेलमध्ये रुपांतरित करा

माझ्या शहरातील हवामानशास्त्रीय वेधशाळेने देऊ केलेल्या ऐतिहासिक आकडेवारीकडे पाहता, मी ते पाहतो ते केवळ त्यांना ग्राफिक आणि पीडीएफ म्हणून डाउनलोड करण्यासाठी ऑफर करतात. मला ते समजत नाही की ते आपल्याला त्याना सीएसव्ही मध्ये डाउनलोड का करू देत नाहीत, जे प्रत्येकासाठी अधिक उपयुक्त ठरेल.

म्हणून मी एकाचा शोध घेत आहे या टेबलांना पीडीएफ ते सीएसव्हीमध्ये पास करण्याचा उपाय किंवा एखाद्यास एक्सेल किंवा लिबर ऑफिस फॉरमॅट करायचे असल्यास. मला सीएसव्ही आवडत आहे कारण एका सीएसव्हीद्वारे आपण अजगर आणि त्याच्या लायब्ररीत हे सर्व काही हाताळू शकता किंवा आपण कोणत्याही स्प्रेडशीटमध्ये सहज आयात करू शकता.

स्वयंचलित प्रक्रिया साध्य करण्याची कल्पना असल्याने, मला पायथनबरोबर काम करण्याची स्क्रिप्ट पाहिजे आहे आणि इथेच तबूला येते.

पीडीएफला तबूलासह CSV मध्ये रुपांतरित करा

पायर्‍या आणि ऑपरेशन खूप सोपे आहे. प्रथम होईल आमच्या विकास वातावरणात तबला लायब्ररी स्थापित करा. टॅबुला आम्हाला पीडीएफ मधील सारण्यांमधून पांडा डेटाफ्रेम्समध्ये डेटा काढण्याची परवानगी देतो, पायथन लायब्ररी सीएसव्ही आणि अ‍ॅरेसह कार्य करण्यासाठी अनुकूलित.

हे देखील परवानगी देते काढा आणि पीडीएफ, जेएसओएन, सीएसव्ही आणि टीएसव्ही दरम्यान रूपांतरित करा. एक रत्न त्यात तुम्हाला बरीच माहिती मिळू शकेल गीथब भांडार

आमच्या मेलिंग यादीची सदस्यता घ्या

मागील दिवसांपासून मी सर्व कामांचा फायदा घेत आहे आणि अ‍ॅनाकोंडामध्ये स्थापित करतो. दुव्यामध्ये आपण ते कसे पाहू शकता acनाकोंडा स्थापित करा.

आम्ही तबूला स्थापित करतो

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

हे कार्यान्वित करताना, मला एक त्रुटी दिली

त्यांच्या दस्तऐवजीकरणात सूचित केल्यानुसार समाधान म्हणजे तबूलाची जुनी आवृत्ती विस्थापित करणे आणि नवीन स्थापित करणे होय.

pip uninstall tabula
pip install tabula-py

आम्ही एक्जीक्यूटेबल .py बनवतो

पीडीएफ ते सीएसव्ही पर्यंत सारण्या वाचा

मी pdftocsv.py कॉल केलेला एक्जीक्यूटेबल .py बनवितो. मी ते माझ्या डाउनलोड्स / एलिटीम्पो फोल्डरमध्ये ठेवले आणि ती खालील कोडसह एक फाईल आहे

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

वाचण्यासाठी असलेल्या पीडीएफला इन्फोरेटज.पीडीएफ म्हणतात आणि आऊटपुटला आउट सीएसव्ही म्हणतात आणि हे ज्या फोल्डरमध्ये आपण कार्यरत आहोत त्यामध्ये ते राहील.

आपण ज्या डिरेक्टरीमधे कार्यान्वित करण्यायोग्य व पीडीएफ दोन्ही रुपांतरित करू इच्छित आहोत तेथे जाऊ. हे महत्वाचे आहे कारण जर आपण आम्हाला सांगाल की आपल्याला फाइल सापडत नाही.

cd Descargas/eltiempo

या निर्देशिकेत आमच्याकडे पीडीएफ, आपण तयार केलेली .py फाइल आहे आणि तिथे ती आपल्याला पाहिजे असलेला सीएसव्ही परत करेल.

आम्ही कोड कार्यान्वित करतो

python pdftocsv.py

लक्षात घ्या की मी अजगर वापरला आहे, म्हणजे मी ते अजगर 2 ने चालवायला सांगतो, अपयशी ठरलेल्या पायथन 3 सह नाही. आणि जर ती कोणतीही त्रुटी परत करत नसेल तर आपल्याकडे आधीपासूनच आहे.

आमच्या acनाकोंडा विकास वातावरणात तबला चालवा

रनटाइम नियंत्रणासाठी आम्ही फाईलमध्ये आणखी तीन ओळी जोडल्या आहेत. शेवटी आम्ही आमची pdftocsv.py फाईल म्हणून सोडली आहे

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

तबला पासून अधिक पर्याय

आम्ही करू शकणार्‍या गोष्टींची अधिक उदाहरणे. बरेच पर्याय आहेत, मी सोडलेल्या अधिकृत गीथब भांडारातून जाणे चांगले

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

डिरेक्टरीमध्ये सर्व पीडीएफ, जेएसओएन इत्यादी फायली रूपांतरित करण्यासाठी सर्वात उपयुक्त गोष्टींपैकी एक आहे यात शंका नाही.

tabula.convert_into_by_batch("input_directory", output_format='csv')

याद्वारे आम्ही कार्ये स्वयंचलित करू शकतो जी अन्यथा लांब आणि कंटाळवाणे असतील. शेवटी हे ग्रंथालय वापरण्याचे एक कारण आहे.

ऑनलाइन उत्कृष्टतेसाठी पीडीएफ रूपांतरित करा

जर आपल्याला फक्त एखादी फाईल रूपांतरित करायची असेल तर पीडीएफ वरून एक्सेल, लिब्रॅकॅल्क किंवा तत्सम सारणीमधून सारांश डेटा काढायचा असेल तर त्यास इतके गुंतागुंत करणे आवश्यक नाही. हे करण्यासाठी साधने उपलब्ध आहेत, काही स्थापित करण्यासाठी आणि काही ऑनलाइन काम पूर्ण करण्यासाठी.

मी ही दोन ऑनलाइन साधने वापरुन पाहिली आहेत आणि ती चांगली काम करतात.

हे लक्षात ठेवा की ही स्वयंचलित नोकरी नाही आणि म्हणूनच या साधनांचा अभ्यास पूर्ण झाला नाही. ज्यांना स्वारस्य असेल त्यांच्यासाठी मी केवळ त्यांच्यावर टिप्पणी करतो.

शास्त्रीय पद्धत

आणि आमच्याकडे नेहमी क्लासिक पद्धत असते, सर्वात आळशी आणि महाग परंतु शेवटी थोड्या प्रमाणात काम केल्यास ते एक पर्याय आहे.

टेबल सेल्सची पीडीएफमधून कॉपी करुन आमच्या स्प्रेडशीटमध्ये पेस्ट करा.

स्मरण शाक्तीची एक टिप्पणी