جدولن سان جدولن کي پي ڊي ايف کان ايڪسل يا سي ايس وي ۾ ڪئين تبديل ڪجي

پي ڊي ايف کي سي ايس وي ۾ تبديل ڪريو ۽ ايڪسسل ڪريو

منهنجي شهر ۾ موسمياتي مشاهدي جي پيش ڪيل تاريخي ڊيٽا کي ڏسي ، مون اهو سمجهيو آهي اھي صرف انھن کي پيش ڪندا آھن پي ڊي ايف جي طور تي ۽ ڊائون لوڊ ڪرڻ جي لاءِ. مان نه ٿو سمجهان ته اهي توهان کي سي ايس وي ۾ ڊائون لوڊ ڪرڻ جي اجازت ڇو نٿا ڏين ، جيڪو سڀني لاءِ گهڻو مفيد هوندو.

تنهنڪري آئون هڪ کي ڳولي لهي رهيو آهيان هنن جدولن کي پي ڊي ايف کان سي ايس وي پاس ڪرڻ جو حل يا جيڪڏهن ڪو هڪسل يا لائبر آفيس فارميٽ ڪرڻ چاهي ٿو. مونکي سي ايس وي پسند آهي ڇاڪاڻ ته هڪ سي ايس وي سان توهان سڀ ڪجهه ڪندا آهيو توهان ان کي پائٿون ۽ ان جي لائبريرين سان سنڀاليندا آهيو يا توهان آساني سان هن کي ڪنهن اسپريڊ شيٽ ۾ درآمد ڪري سگهو ٿا.

جيئن ته اهو خيال آهي ته هڪ خودڪار عمل حاصل ڪرڻ ، جيڪو آئون چاهيان اهو اسڪرپٽ پيٿن سان ڪم ڪرڻ جي لاءِ آهي ۽ هي اهو آهي جتان ٽيبلا اندر اچي ٿو.

پي وي ڊي کي سي ايس وي ۾ ٽيبل سان تبديل ڪريو

مرحلا ۽ آپريشن بلڪل سادو آهي. پهرين ٿي ويندو اسان جي ترقي واري ماحول ۾ ٽيبلا لائبريري انسٽال ڪريو. ٽيبولا اسان کي پي ڊي ايف ۾ جدولن تان پيڊاس ڊيٽا فريمز ۾ ڊيٽا ڪ extractڻ جي اجازت ڏئي ٿو ، پٿن لائبريري سي ايس وي ۽ arrays سان ڪم ڪرڻ لاءِ بهتر.

اهو پڻ اجازت ڏئي ٿو پي PDF ، JSON ، CSV ۽ TSV جي وچ ۾ ڪ extractو ۽ تبديل ڪريو. هڪ همت. توهان ان ۾ تمام گهڻي معلومات ڳولي سگهو ٿا گٿب مخزن

اسان جي ميلنگ لسٽ ۾ سبسڪرائب ڪريو

مون گذريل ڏينهن مان سموري ڪم جو فائدو ورتو ۽ اناڊاڊا ۾ انسٽال ڪيو. لنڪ ۾ توهان ڏسي سگهو ٿا ته اناڊاڊا انسٽال ڪريو.

اسان ٽيبلو نصب ڪيو ٿا

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

جڏهن ان تي عمل ڪيو ، اها مون کي غلطي ڏي ٿي

حل ، جيئن انهن جي دستاويز ۾ اشارو ڪيو ويو آهي ، اهو نسخ جو پراڻو نسخو ڪ toي انسٽال ڪريو ۽ نئون انسٽال ڪريو.

pip uninstall tabula
pip install tabula-py

اسان عملدرآمد .py پيدا ڪريون ٿا

پي ڊي ايف کان سي ايس وي تائين ٽيبل پڙهو

مان ايگزيڪيوٽو .py ٺاهندو آهيان جنهن کي مون پي ڊي ايفڪيوو.وپي سڏيو آهي مون ان کي پنهنجي ڊاؤن لوڊ / ايلٽيمپو فولڊر ۾ رکيو آهي ۽ اهو هيٺ ڏنل ڪوڊ سان فائل آهي.

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

پي ڊي ايف پڙھڻ کي inforatge.pdf سڏيو ويندو آھي ۽ مان ان کي ٻڌايان ٿو ته ٻاھر ڪ outو.csv سڏيو وڃي ٿو ۽ اھو ان فولڊر ۾ رھندو جنھن ۾ اسان ڪم ڪري رھيا آھيون.

اسين ڊاريڪٽري ڏانھن وڃون ٿا جتي اسان وٽ عملدرآمد ۽ پي ڊي ايف ٻئي آھي جيڪو اسان تبديل ڪرڻ چاھيو ٿا. اهو ضروري آهي ڇاڪاڻ ته جيڪڏهن اهو اسان کي ٻڌائي ته اها فائل ڳولهي نه سگهندي.

cd Descargas/eltiempo

هن ڊاريڪٽري ۾ اسان وٽ پي ڊي ايف آھي .py فائل جيڪا اسان ٺاھي آھي ۽ اھو جيڪو اسان چاھيو ويندو واپس ڪندو.

اسان ڪوڊ تي عمل ڪيو

python pdftocsv.py

نوٽ ڪيو ته مون پٿرن کي استعمال ڪيو آهي ، اهو آهي مان ان کي پٿون 2 سان هلائڻ ۽ ان کي پٿون 3 سان هلائڻ نه ٿو ڏيان جيڪو ناڪام ٿي ويو. ۽ اهو آهي جيڪڏهن اها ڪا غلطي واپس نه اچي ، اسان وٽ پهريان ئي آهي.

هليو اسان جي اناڊاڊا ڊولپمينٽ ماحول ۾ ٽيبلو

اسان رن ٽائيم ڪنٽرول لاءِ فائل کي 3 وڌيڪ لائينون شامل ڪيون آهن. آخر ۾ اسان پنهنجي pdftocsv.py فائل کي ڇڏي ڏنو آهي

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

ٽيبلا کان وڌيڪ اختيارات

شين جو وڌيڪ مثال اسين ڪري سگهون ٿا. هتي ڪيترائي اختيارات آهن ، اهو بهتر آهي ته سرڪاري گٿبب مخزن جي ذريعي وڃڻ جو آئون ڇڏي ويو آهيان

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

۽ بغير شڪ ۾ هڪ تمام مفيد شين کي پي ڊي ايف ، JSON ، وغيره فائلن کي ڊاريڪٽري ۾ تبديل ڪرڻ لاءِ.

tabula.convert_into_by_batch("input_directory", output_format='csv')

ان سان اسان ڪم کي خودڪار ڪري سگھون ٿا جيڪو ٻي صورت ۾ ڊگهو ۽ ڏکارو هوندو. آخر ۾ ، اھو ھن لائبريري کي استعمال ڪرڻ جو ھڪڙو سبب آھي.

آن لائن excel کي پي ڊي ايف ۾ تبديل ڪريو

جيڪڏھن اسان چاھيو ٿا ته فقط فائل کي تبديل ڪيو وڃي ، ٽيبل مان ڊيٽا ڪ extractو PDF کان ايڪسل ، لبرلڪ يا اھڙي طرح ، اھو ضروري نھ آھي ته ان کي وڌيڪ پيچيدگين ڪيو وڃي. هتي ڪرڻ لاءِ ڪي اوزار موجود آهن ، ڪجهه انسٽال ڪرڻ لاءِ ۽ ڪجهه آنلائين نوڪري حاصل ڪرڻ لاءِ.

مون اهي ٻه آن لائين اوزار آزمايا آهن ۽ اهي تمام سٺو ڪم ڪن ٿا.

ذهن ۾ رکڻ گهرجي ته اها هڪ خودڪار نوڪري ناهي ، ۽ اهو ئي سبب آهي ته انهن اوزارن جو مطالعو شاندار نه رهيو آهي. مان صرف انهن تي تبصرو ڪندوان جن کي شوق هوندو.

طبقاتي طريقو

۽ اسان وٽ هميشه وٽ کلاسي جو طريقو آهي ، تمام گھڻو ڇڪيل ۽ مهانگو پر آخر ۾ اهو هڪ آپشن آهي جيڪڏهن ٿورو ڪم آهي.

ٽيبل جي خولن کي پي ڊي ايف مان ڪاپي ڪريو ۽ انھن کي اسان جي اسپريڊ شيٽ ۾ پيسٽ ڪريو.

تبصرو ڪيو