میرے شہر میں ایک موسمیاتی رصد گاہ کی طرف سے پیش کردہ تاریخی اعداد و شمار کو دیکھ کر ، میں یہ دیکھتا ہوں وہ صرف انہیں گرافک اور پی ڈی ایف کے بطور ڈاؤن لوڈ کے لئے پیش کرتے ہیں. مجھے سمجھ نہیں آتی ہے کہ وہ آپ کو csv میں ڈاؤن لوڈ کیوں نہیں کرنے دیتے ، جو ہر ایک کے لئے زیادہ مفید ہوگا۔
تو میں ایک کی تلاش کر رہا ہوں ان ٹیبلز کو پی ڈی ایف سے سی ایس وی میں منتقل کرنے کا حل یا اگر کوئی ایکسل یا لائبر آفس فارمیٹ کرنا چاہتا ہے. مجھے سی ایس وی پسند ہے کیونکہ سی ایس وی کے ذریعہ آپ ہر وہ کام کرتے ہیں جسے آپ ازگر اور اس کی لائبریریوں سے سنبھال سکتے ہیں یا آپ اسے آسانی سے کسی بھی اسپریڈشیٹ میں درآمد کرسکتے ہیں۔
چونکہ یہ خیال ایک خودکار عمل کو حاصل کرنا ہے ، میں جو کچھ چاہتا ہوں وہ اسکرپٹ کے ساتھ مل کر کام کرنے کے ل and ہے اور یہ وہ مقام ہے جہاں طبلہ آتا ہے۔
ٹیبولا کے ساتھ پی ڈی ایف کو سی ایس وی میں تبدیل کریں
اقدامات اور آپریشن بہت آسان ہے۔ پہلا ہوگا ہمارے ترقیاتی ماحول میں ٹیبولا لائبریری انسٹال کریں. ٹیبولا ہمیں پی ڈی ایف میں ٹیبلز سے پنڈاس ڈیٹا فریموں میں ڈیٹا نکالنے کی اجازت دیتا ہے ، ازگر کی لائبریری سی ایس وی اور اری کے ساتھ کام کرنے کے لئے موزوں ہے۔
یہ بھی کی اجازت دیتا ہے نکالیں اور پی ڈی ایف ، JSON ، CSV اور TSV کے درمیان تبدیل کریں. ایک جواہر اس میں آپ کو اور بھی زیادہ معلومات مل سکتی ہیں گیتھب ذخیر
میں پچھلے دنوں سے ہی تمام کاموں سے فائدہ اٹھاتا ہوں اور اسے ایناکونڈا میں انسٹال کرتا ہوں۔ لنک میں آپ دیکھ سکتے ہیں کہ کیسے ایناکونڈا انسٹال کریں.
ہم ٹیبولا کو انسٹال کرتے ہیں
#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py
اس پر عمل درآمد کرتے وقت ، اس نے مجھے ایک غلطی دی
جیسا کہ ان کی دستاویزات میں اشارہ کیا گیا ہے وہ یہ تھا کہ طبلہ کے پرانے ورژن کو ان انسٹال کریں اور نیا نصب کریں۔
pip uninstall tabula
pip install tabula-py
ہم پھانسی کے قابل
میں پھانسی والا پی پی بناتا ہوں جس کو میں pdftocsv.py کہتا ہوں میں نے اسے اپنے ڈاؤن لوڈز / ایلٹیمپپو فولڈر میں ڈال دیا اور یہ مندرجہ ذیل کوڈ والی فائل ہے
import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')
پڑھنے کے لئے پی ڈی ایف کو انفارمیٹ جی پی پی ایف کہا جاتا ہے اور میں اسے بتاتا ہوں کہ آؤٹ پٹ آؤٹ سی سی وی کہا جاتا ہے اور یہ اس فولڈر میں رہے گا جس میں ہم کام کر رہے ہیں۔
ہم اس ڈائرکٹری میں جاتے ہیں جہاں ہمارے پاس عملدرآمد اور پی ڈی ایف دونوں ہیں جو ہم تبدیل کرنا چاہتے ہیں۔ یہ ضروری ہے کیونکہ اگر آپ ہمیں بتائیں گے کہ آپ کو فائل نہیں مل سکتی ہے۔
cd Descargas/eltiempo
اس ڈائرکٹری میں ہمارے پاس پی ڈی ایف ، ہم نے پیدا کی ہوئی پی پی فائل ہے اور وہاں وہ ہمیں مطلوبہ CSV واپس کردے گی۔
ہم کوڈ پر عملدرآمد کرتے ہیں
python pdftocsv.py
غور کریں کہ میں نے ازگر کا استمعال کیا ہے ، یعنی میں اسے کہتا ہوں کہ اسے اس کو ازگر 2 سے چلائیں ، نہ کہ اس میں پاگل آتھن 3 کے ساتھ چلائیں۔ اور یہ بات ہے اگر یہ کسی بھی غلطی کو واپس نہیں کرتا ہے ، ہمارے پاس پہلے سے موجود ہے۔
رن ٹائم کنٹرول کے ل We ہم نے فائل میں مزید 3 لائنیں شامل کیں۔ آخر میں ہم نے اپنی pdftocsv.py فائل کو اسی طرح چھوڑ دیا ہے
import tabula
import time
start_time = time.time()
df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')
print("--- %s seconds ---" % (time.time() - start_time))
ٹیبولا سے مزید اختیارات
ان چیزوں کی مزید مثالیں جن سے ہم کر سکتے ہیں۔ بہت سارے اختیارات موجود ہیں ، بہتر ہے کہ میں نے چھوڑ دیا ہے سرکاری گتھوب کے ذخیرے میں سے گزرنا
# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")
# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")
اور بغیر کسی ڈائرکٹری میں تمام PDF ، JSON ، وغیرہ فائلوں کو تبدیل کرنے کے لئے سب سے مفید چیزوں میں سے ایک۔
tabula.convert_into_by_batch("input_directory", output_format='csv')
اس کی مدد سے ہم ایسے کاموں کو خود کار طریقے سے انجام دے سکتے ہیں جو بصورت دیگر طویل اور تکلیف دہ ہوں گے۔ آخر میں اس لائبریری کے استعمال کی ایک وجہ یہ ہے۔
آن لائن ایکسل کیلئے پی ڈی ایف کو تبدیل کریں
اگر ہم صرف ایک فائل میں تبدیل کرنا چاہتے ہیں تو ، ٹیبل سے ڈیٹا کو پی ڈی ایف سے ایکسل ، لبرلک یا اس سے ملتا ہے ، اس میں اتنا پیچیدہ ہونا ضروری نہیں ہے۔ ایسا کرنے کے ل tools اوزار دستیاب ہیں ، کچھ انسٹال کرنے کے ل and اور کچھ کام آن لائن کرنے کے ل.۔
میں نے ان دونوں آن لائن ٹولز کو آزمایا ہے اور وہ بہت اچھی طرح سے کام کرتے ہیں۔
- https://www.pdftoexcel.com/es
- https://www.pdftoexcelonline.com/es/ ٹھیک کام کرتا ہے لیکن آپ کو ڈاک کے ذریعہ دستاویز بھیجتا ہے
ذہن میں رکھیں کہ یہ کوئی خودکار کام نہیں ہے ، اور اس وجہ سے ان ٹولز کا مطالعہ مکمل نہیں ہوا ہے۔ میں ان پر صرف ان لوگوں کے لئے تبصرہ کرتا ہوں جو دلچسپی لیتے ہو۔
کلاسیکی طریقہ
اور ہمارے پاس ہمیشہ کلاسیکی طریقہ ہے ، سب سے زیادہ میلا اور مہنگا لیکن آخر میں اگر یہ بہت کم کام ہوتا ہے تو یہ ایک آپشن ہوتا ہے۔
ٹیبل سیل کو پی ڈی ایف سے کاپی کریں اور انہیں ہماری اسپریڈشیٹ میں چسپاں کریں۔