పట్టికలను పిడిఎఫ్ నుండి ఎక్సెల్ లేదా సిఎస్‌వికి టాబులాతో ఎలా మార్చాలి

పాస్ చేసి పిడిఎఫ్‌ను సిఎస్‌విగా మార్చండి మరియు ఎక్సెల్ చేయండి

నా నగరంలోని వాతావరణ అబ్జర్వేటరీ అందించే చారిత్రక డేటాను చూస్తే, నేను దానిని చూస్తున్నాను వారు వాటిని గ్రాఫికల్‌గా మరియు PDF గా డౌన్‌లోడ్ చేయడానికి మాత్రమే అందిస్తారు. Csv లో డౌన్‌లోడ్ చేసుకోవడానికి వారు మిమ్మల్ని ఎందుకు అనుమతించరని నాకు అర్థం కావడం లేదు, ఇది అందరికీ మరింత ఉపయోగకరంగా ఉంటుంది.

నేను ఒక కోసం చూస్తున్నాను ఈ పట్టికలను పిడిఎఫ్ నుండి సిఎస్‌వికి పంపించడానికి లేదా ఎవరైనా ఎక్సెల్ లేదా లిబ్రే ఆఫీస్‌ను ఫార్మాట్ చేయాలనుకుంటే పరిష్కారం. నేను csv ని ఇష్టపడుతున్నాను ఎందుకంటే ఒక csv తో మీరు పైథాన్ మరియు దాని లైబ్రరీలతో నిర్వహించగలిగే ప్రతిదాన్ని చేస్తారు లేదా మీరు దానిని ఏదైనా స్ప్రెడ్‌షీట్‌లోకి సులభంగా దిగుమతి చేసుకోవచ్చు.

స్వయంచాలక ప్రక్రియను పొందాలనే ఆలోచన ఉన్నందున, పైథాన్‌తో పనిచేయడానికి నాకు కావలసినది స్క్రిప్ట్ మరియు ఇక్కడే టాబులా వస్తుంది.

తబులాతో పిడిఎఫ్‌ను సిఎస్‌విగా మార్చండి

దశలు మరియు ఆపరేషన్ చాలా సులభం. మొదటిది ఉంటుంది మా అభివృద్ధి వాతావరణంలో టాబులా లైబ్రరీని వ్యవస్థాపించండి. సిడివి మరియు శ్రేణులతో పనిచేయడానికి ఆప్టిమైజ్ చేసిన పైథాన్ లైబ్రరీ, పిడిఎఫ్ టేబుల్స్ నుండి పాండాస్ డేటాఫ్రేమ్‌లలోకి డేటాను సేకరించడానికి టాబులా అనుమతిస్తుంది.

ఇది కూడా అనుమతిస్తుంది PDF, JSON, CSV మరియు TSV ల మధ్య సంగ్రహించి మార్చండి. ఒక రత్నం. మీరు దానిలో మరింత సమాచారాన్ని కనుగొనవచ్చు github రిపోజిటరీ

నేను మునుపటి రోజుల నుండి అన్ని పనులను సద్వినియోగం చేసుకుని అనకొండలో ఇన్‌స్టాల్ చేస్తాను. లింక్‌లో మీరు ఎలా చూడగలరు అనకొండను వ్యవస్థాపించండి.

మేము టాబులాను వ్యవస్థాపించాము

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

దీన్ని అమలు చేస్తున్నప్పుడు, అది నాకు లోపం ఇచ్చింది

వారి డాక్యుమెంటేషన్‌లో సూచించిన పరిష్కారం టబులా యొక్క పాత సంస్కరణను అన్‌ఇన్‌స్టాల్ చేసి, క్రొత్తదాన్ని ఇన్‌స్టాల్ చేయడం.

pip uninstall tabula
pip install tabula-py

మేము ఎక్జిక్యూటబుల్ .py ని సృష్టిస్తాము

పిడిఎఫ్ నుండి సిఎస్వి వరకు పట్టికలను చదవండి

నేను pdftocsv.py అని పిలిచే ఎక్జిక్యూటబుల్ .py ని క్రియేట్ చేసాను. నేను దానిని నా డౌన్‌లోడ్ / ఎల్టిఎంపో ఫోల్డర్‌లో ఉంచాను మరియు ఇది క్రింది కోడ్‌తో ఉన్న ఫైల్

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

చదవడానికి పిడిఎఫ్‌ను inforatge.pdf అని పిలుస్తారు మరియు అవుట్‌పుట్‌ను out.csv అని పిలుస్తాను మరియు అది మేము పనిచేస్తున్న ఫోల్డర్‌లోనే ఉంటుంది.

మేము ఎక్జిక్యూటబుల్ మరియు పిడిఎఫ్ రెండింటినీ కలిగి ఉన్న డైరెక్టరీకి వెళ్తాము. ఇది ముఖ్యం ఎందుకంటే మీరు ఫైల్‌ను కనుగొనలేరని మీరు మాకు చెబితే.

cd Descargas/eltiempo

ఈ డైరెక్టరీలో మనకు పిడిఎఫ్ ఉంది, మనం సృష్టించిన .py ఫైల్ మరియు అక్కడ అది మనకు కావలసిన సిఎస్విని తిరిగి ఇస్తుంది.

మేము కోడ్‌ను అమలు చేస్తాము

python pdftocsv.py

నేను పైథాన్‌ను ఉపయోగించానని గమనించండి, అనగా పైథాన్ 2 తో దీన్ని అమలు చేయమని చెప్తున్నాను మరియు విఫలమయ్యే పైథాన్ 3 తో ​​కాదు. అది ఏ లోపాన్ని తిరిగి ఇవ్వకపోతే అంతే, మనకు ఇది ఇప్పటికే ఉంది.

మా అనకొండ అభివృద్ధి వాతావరణంలో టాబులాను అమలు చేయండి

రన్‌టైమ్ నియంత్రణ కోసం ఫైల్‌కు మరో 3 పంక్తులను జోడించాము. చివరికి మేము మా pdftocsv.py ఫైల్‌ను ఇలా వదిలివేసాము

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

టాబులా నుండి మరిన్ని ఎంపికలు

మనం చేయగలిగే పనులకు మరిన్ని ఉదాహరణలు. చాలా ఎంపికలు ఉన్నాయి, నేను వదిలిపెట్టిన అధికారిక గితుబ్ రిపోజిటరీ ద్వారా వెళ్ళడం మంచిది

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

మరియు సందేహం లేకుండా డైరెక్టరీలోని అన్ని PDF, JSON, మొదలైన ఫైళ్ళను మార్చడానికి చాలా ఉపయోగకరమైన విషయాలలో ఒకటి.

tabula.convert_into_by_batch("input_directory", output_format='csv')

దీనితో మనం సుదీర్ఘమైన మరియు శ్రమతో కూడిన పనులను ఆటోమేట్ చేయవచ్చు. చివరికి ఈ లైబ్రరీని ఉపయోగించటానికి ఇది ఒక కారణం.

పిడిఎఫ్‌ను ఆన్‌లైన్‌లో రాణించడానికి మార్చండి

మనకు కావలసినది ఒక ఫైల్‌ను మార్చడం, టేబుల్ నుండి డేటాను పిడిఎఫ్ నుండి ఎక్సెల్, లిబ్రేకాల్క్ లేదా ఇలాంటి వాటికి సంగ్రహించడం, దానిని అంత క్లిష్టతరం చేయవలసిన అవసరం లేదు. దీన్ని చేయడానికి ఉపకరణాలు అందుబాటులో ఉన్నాయి, కొన్ని ఇన్‌స్టాల్ చేయడానికి మరియు కొన్ని ఆన్‌లైన్‌లో పనిని పూర్తి చేయడానికి.

నేను ఈ రెండు ఆన్‌లైన్ సాధనాలను ప్రయత్నించాను మరియు అవి చాలా బాగా పనిచేస్తాయి.

ఇది స్వయంచాలక పని కాదని గుర్తుంచుకోండి, అందువల్ల ఈ సాధనాల అధ్యయనం సమగ్రంగా లేదు. ఆసక్తి ఉన్నవారి కోసం మాత్రమే నేను వాటిపై వ్యాఖ్యానిస్తాను.

శాస్త్రీయ పద్ధతి

మరియు మనకు ఎల్లప్పుడూ క్లాసిక్ పద్ధతి ఉంది, చాలా అలసత్వము మరియు ఖరీదైనది కాని చివరికి తక్కువ పని ఉంటే అది ఒక ఎంపిక.

పిడిఎఫ్ నుండి టేబుల్ కణాలను కాపీ చేసి వాటిని మా స్ప్రెడ్‌షీట్‌లో అతికించండి.

ఒక వ్యాఖ్యను