कसरी तालिकाहरू PDF बाट एक्सेल वा CSV मा ट्याबलाको साथ रूपान्तरण गर्ने

पास गर्नुहोस् र pdf csv र Excel मा रूपान्तरण गर्नुहोस्

मेरो शहरमा मौसमविद् वेधशालाले प्रस्ताव गरेको ऐतिहासिक तथ्या .्कलाई हेर्दा, म यो देख्छु तिनीहरू केवल ग्राफिक रूपमा र PDF को रूपमा डाउनलोडको लागि प्रस्ताव गर्दछन्। म बुझ्दिन किन तिनीहरूले तपाईंलाई csv मा डाउनलोड गर्न नदिनुहोस्, जुन सबैका लागि धेरै उपयोगी हुन्छ।

त्यसैले म एउटा खोज्दै छु यी टेबल्सहरूलाई pdf बाट csv मा पास गर्न समाधान गर्नुहोस् वा यदि कोही एक्सेल वा लिबर अफिस ढाँचा गर्न चाहन्छ भने। मलाई csv मनपर्दछ किनकि csv को साथ तपाई जे पनि गर्नुहुन्छ जुन तपाई यसलाई अजगर र यसको पुस्तकालयहरु संग सम्हाल्न सक्नुहुन्छ वा तपाई सजिलैसँग कुनै स्प्रेडसिटमा आयात गर्न सक्नुहुनेछ।

जस्तो कि एक स्वचालित प्रक्रिया प्राप्त गर्ने विचार हो, म चाहान्छु कि स्क्रिप्ट पाइथनसँग कार्य गर्दछ र यहीँ ट्याब्ला भित्र आउँदछ।

Pdf लाई csv मा Tabula सँग बदल्नुहोस्

चरणहरू र अपरेसन धेरै सरल छ। पहिलो हुनेछ हाम्रो विकास वातावरणमा Tabula पुस्तकालय स्थापना गर्नुहोस्। ट्याबुलाले हामीलाई टेक्स्टबाट डाटा निकाल्न अनुमति दिन्छ पीडीएफमा पाण्डस डाटाफ्रेमहरूमा, पाइथन लाइब्रेरी CSv र एर्रेसँग कामका लागि अनुकूलित गरियो।

यो पनि अनुमति दिन्छ निकाल्नुहोस् र PDF, JSON, CSV र TSV का बीच रूपान्तरण गर्नुहोस्। एउटा रत्न तपाईं यसमा अधिक जानकारी पाउन सक्नुहुन्छ github भण्डार

हाम्रो मेलिंग सूचीमा सदस्यता लिनुहोस्

म पछिल्ला दिनहरुबाट सबै कामको फाइदा लिन्छु र यसलाई अनाकोंडामा स्थापना गर्छु। लिंकमा तपाईं कसरी देख्न सक्नुहुन्छ एनाकोंडा स्थापना गर्नुहोस्.

हामी ट्याबुला स्थापना गर्दछौं

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

जब यो कार्यान्वयन हुन्छ, यसले मलाई त्रुटि दिन्छ

समाधान उनीहरूको कागजातमा संकेत गरिए अनुसार ट्याबुलाको पुरानो संस्करणको स्थापना हटाएर नयाँ स्थापना गर्नु थियो।

pip uninstall tabula
pip install tabula-py

हामी कार्यान्वयन योग्य .py सिर्जना गर्दछौं

pdf बाट csv मा तालिकाहरू पढ्नुहोस्

म कार्यान्वयन योग्य .py सिर्जना गर्दछु जसलाई म pdftocsv.py भन्छु जुन मैले यसलाई मेरो डाउनलोड / एलिटिमपो फोल्डरमा राखें र यो निम्न कोडको साथ एक फाईल हो।

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

पढ्नको लागि पिडिएफलाई जानकारीको सूचना छ। ppf र म यो भन्छु कि आउटपुट out.csv भनिन्छ र यो फोल्डरमा रहनेछ जुन हामी काम गरिरहेका छौं।

हामी डाइरेक्टरीमा जान्छौं जहाँ हामी दुवै कार्यान्वयन योग्य र pdf छ जुन हामी रूपान्तरण गर्न चाहन्छौं। यो महत्त्वपूर्ण छ किनकि यदि यसले हामीलाई भन्दछ कि यसले फाइल फेला पार्न सक्दैन।

cd Descargas/eltiempo

यस डाइरेक्टरीमा हामीसँग पीडीएफ छ, हामीले सिर्जना गरेको .py फाईल छ र त्यहाँ हामीले चाहेको CSv फर्काउँछ।

हामी कोड कार्यान्वयन गर्दछौं

python pdftocsv.py

ध्यान दिनुहोस् कि मैले अजगरको प्रयोग गरेको छु, जुन म यसलाई अजगर २ बाट चलाउन भन्छु न कि पाइथन with संग विफल हुन्छ। र यो यो हो यदि यसले कुनै त्रुटि फिर्ता गर्दैन, हामीसँग पहिले नै यो छ।

हाम्रो एनाकोन्डा विकास वातावरणमा Tabula चलाउनुहोस्

रनटाइम नियन्त्रणको लागि हामीले फाईलमा थप more लाइनहरू थपेका छौं। अन्त्यमा हामीले हाम्रो pdftocsv.py फाईललाई यस रूपमा त्यागेका छौं

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

Tabula बाट अधिक विकल्पहरू

हामी गर्न सक्ने चीजहरूको थप उदाहरणहरू। त्यहाँ धेरै विकल्पहरू छन्, मैले छोडेको आधिकारिक गीथब भण्डारहरूमा जानु उत्तम हुन्छ

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

र कुनै श doubt्का बिना सबै भन्दा उपयोगी चीजहरू मध्ये एक सबै पीडीएफ, JSON, आदि फाइलहरू एक निर्देशिका मा रूपान्तरण गर्न।

tabula.convert_into_by_batch("input_directory", output_format='csv')

यसका साथ हामी कार्यहरू स्वचालित गर्न सक्दछौं जुन अन्यथा लामो र कठिन हुन्छ। अन्त्यमा, यो पुस्तकालय प्रयोग गर्नुको एक कारण यो हो।

अनलाइन अनलाइन पीडीएफ रूपान्तरण गर्नुहोस्

यदि हामी के चाहान्छौं केवल फाइल रूपान्तरण गर्न, तालिकाबाट डाटा निकाल्नुहोस् PDF बाट एक्सेल, लिब्रेकल्क वा समानमा, यसलाई यति जटिल बनाउन आवश्यक छैन। त्यहाँ गर्न उपकरणहरू उपलब्ध छन्, केहि स्थापना गर्न र केहि कामलाई अनलाइन गर्नका लागि।

मैले यी दुई अनलाइन उपकरणहरू प्रयास गरेको छु र ती राम्रो काम गर्दछन्।

दिमागमा राख्नुहोस् कि यो एक स्वचालित रोजगार होईन, र त्यसैले यो उपकरणहरूको अध्ययन पूर्ण गरिएको छैन। म केवल तिनीहरू मा टिप्पणी जो इच्छुक हुन सक्छ।

शास्त्रीय विधि

र हामीसँग सधैं नै क्लासिक विधि छ, सबै भन्दा मैला र महँगो तर अन्तमा यदि यो थोरै काम भएमा यो विकल्प हो।

तालिका कक्षहरू pdf बाट प्रतिलिपि गर्नुहोस् र तिनीहरूलाई हाम्रो स्प्रेडशिटमा पेस्ट गर्नुहोस्।

टिप्पणी छोड्नुहोस्