टैब से पीडीएफ को एक्सेल या सीएसवी से टेबल में कैसे बदलें

पास करें और पीडीएफ को सीएसवी में बदलें और एक्सेल करें

मेरे शहर में एक मौसम संबंधी वेधशाला द्वारा पेश किए गए ऐतिहासिक आंकड़ों को देखते हुए, मुझे लगता है कि वे केवल उन्हें ग्राफिक रूप से और पीडीएफ के रूप में डाउनलोड करने की पेशकश करते हैं। मुझे समझ में नहीं आता कि वे आपको सीएसवी में उन्हें डाउनलोड करने क्यों नहीं देते हैं, जो सभी के लिए बहुत उपयोगी होगा।

इसलिए मैं एक की तलाश में हूं इन तालिकाओं को पीडीऍफ़ से सीएसवी तक या यदि कोई एक्सेल या लिब्रे ऑफिस को प्रारूपित करना चाहता है। मुझे सीएसवी पसंद है क्योंकि एक सीएसवी के साथ आप वह सब कुछ करते हैं जो आप इसे अजगर और इसके पुस्तकालयों के साथ संभाल सकते हैं या आप इसे आसानी से किसी भी स्प्रेडशीट में आयात कर सकते हैं।

जैसा कि विचार एक स्वचालित प्रक्रिया को प्राप्त करना है, जो मैं चाहता हूं वह पायथन के साथ काम करने के लिए एक स्क्रिप्ट है और यही वह जगह है जहां तबला आता है।

तबले के साथ pdf को csv में बदलें

कदम और ऑपरेशन बहुत सरल है। पहला होगा हमारे विकास के माहौल में तबला पुस्तकालय स्थापित करें। तबुला हमें पीडीएफ में पंडों के डेटाफ्रेम में टेबल से डेटा निकालने की अनुमति देता है, पायथन लाइब्रेरी को सीएसवी और सरणियों के साथ काम करने के लिए अनुकूलित किया गया है।

यह भी अनुमति देता है पीडीएफ, JSON, CSV और TSV के बीच का अर्क और रूपांतरित करें। एक रत्न। आप इसके बारे में और अधिक जानकारी प्राप्त कर सकते हैं गिथब भंडार

हमारी मेलिंग सूची की सदस्यता लें

मैं पिछले दिनों के सभी कार्यों का लाभ उठाता हूं और इसे एनाकोंडा में स्थापित करता हूं। लिंक में आप देख सकते हैं कैसे एनाकोंडा स्थापित करें.

हम तबुला स्थापित करते हैं

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

इसे निष्पादित करते समय, इसने मुझे एक त्रुटि दी

उनके प्रलेखन में संकेत के रूप में समाधान तबुला के पुराने संस्करण की स्थापना रद्द करने और नया स्थापित करने के लिए था।

pip uninstall tabula
pip install tabula-py

हम निष्पादन योग्य .py बनाते हैं

pdf से csv पर तालिकाएँ पढ़ें

मैं निष्पादन योग्य .py बनाता हूं जिसे मैं pdftocsv.py कहता हूं, जिसे मैंने अपने डाउनलोड / eltiempo फ़ोल्डर में रखा है और यह निम्नलिखित कोड वाली फ़ाइल है

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

पढ़ने के लिए पीडीएफ़ को inforatge.pdf कहा जाता है और मैं इसे बताता हूं कि आउटपुट को out.csv कहा जाता है और यह उस फ़ोल्डर में रहेगा जिसमें हम काम कर रहे हैं।

हम उस डायरेक्टरी में जाते हैं जहाँ हमारे पास निष्पादन योग्य और पीडीएफ दोनों हैं जिन्हें हम कनवर्ट करना चाहते हैं। यह महत्वपूर्ण है क्योंकि अगर यह हमें बताएगा कि यह फ़ाइल नहीं ढूंढ सकता है।

cd Descargas/eltiempo

इस निर्देशिका में हमारे पास पीडीएफ, .py फ़ाइल है जिसे हमने बनाया है और वहां वह सीएसवी लौटाएगा जो हम चाहते हैं।

हम कोड निष्पादित करते हैं

python pdftocsv.py

ध्यान दें कि मैंने अजगर का उपयोग किया है, अर्थात, मैं इसे अजगर 2 के साथ चलाने के लिए कहता हूं न कि अजगर के साथ जो विफल रहता है। और अगर यह किसी भी त्रुटि को वापस नहीं करता है, तो हमारे पास पहले से ही है।

हमारे एनाकोंडा विकास वातावरण में तबुला चलाएं

हमने रनटाइम कंट्रोल के लिए फ़ाइल में 3 और लाइनें जोड़ी हैं। अंत में हमने अपनी pdftocsv.py फ़ाइल को छोड़ दिया है

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

तबुला से अधिक विकल्प

चीजों का अधिक उदाहरण हम कर सकते हैं। कई विकल्प हैं, आधिकारिक गिथुब भंडार के माध्यम से जाना सबसे अच्छा है जिसे मैंने छोड़ दिया है

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

और एक निर्देशिका में सभी पीडीएफ, JSON, आदि फ़ाइलों को परिवर्तित करने के लिए सबसे उपयोगी चीजों में से एक संदेह के बिना।

tabula.convert_into_by_batch("input_directory", output_format='csv')

इससे हम ऐसे कार्यों को स्वचालित कर सकते हैं जो अन्यथा लंबे और थकाऊ होंगे। अंत में, यह इस पुस्तकालय का उपयोग करने के कारणों में से एक है।

ऑनलाइन एक्सेल करने के लिए पीडीएफ कन्वर्ट

यदि हम चाहते हैं कि किसी फ़ाइल को केवल रूपांतरित किया जाए, तो पीडीएफ से एक्सेल, लिब्रेकल्क या इसी तरह की तालिका से डेटा निकालें, इसे इतना जटिल करने के लिए आवश्यक नहीं है। ऐसा करने के लिए उपकरण उपलब्ध हैं, कुछ स्थापित करने के लिए और कुछ काम ऑनलाइन करने के लिए।

मैंने इन दो ऑनलाइन टूल की कोशिश की है और वे बहुत अच्छी तरह से काम करते हैं।

ध्यान रखें कि यह एक स्वचालित काम नहीं है, और यही कारण है कि इन उपकरणों का अध्ययन संपूर्ण नहीं हुआ है। मैं केवल उन लोगों के लिए उन पर टिप्पणी करता हूं जो रुचि रखते हैं।

शास्त्रीय विधि

और हमारे पास हमेशा क्लासिक तरीका है, सबसे मैला और महंगा लेकिन अंत में यह एक विकल्प है अगर थोड़ा काम है।

पीडीएफ से तालिका कोशिकाओं को कॉपी करें और उन्हें हमारे स्प्रेडशीट में पेस्ट करें।

एक टिप्पणी छोड़ दो