ਟੇਬੁਲਾ ਨਾਲ ਟੇਬਲ ਨੂੰ ਪੀਡੀਐਫ ਤੋਂ ਐਕਸਲ ਜਾਂ CSV ਵਿੱਚ ਕਿਵੇਂ ਬਦਲਿਆ ਜਾਵੇ

ਪਾਸ ਅਤੇ pdf ਨੂੰ csv ਅਤੇ ਐਕਸਲ ਵਿੱਚ ਤਬਦੀਲ ਕਰੋ

ਮੇਰੇ ਸ਼ਹਿਰ ਵਿੱਚ ਮੌਸਮ ਵਿਗਿਆਨ ਨਿਗਰਾਨ ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੇ ਇਤਿਹਾਸਕ ਅੰਕੜਿਆਂ ਨੂੰ ਵੇਖਦਿਆਂ, ਮੈਂ ਇਹ ਵੇਖਦਾ ਹਾਂ ਉਹ ਸਿਰਫ ਉਨ੍ਹਾਂ ਨੂੰ ਗ੍ਰਾਫਿਕ ਤੌਰ 'ਤੇ ਅਤੇ ਪੀਡੀਐਫ ਦੇ ਤੌਰ ਤੇ ਡਾਉਨਲੋਡ ਕਰਨ ਲਈ ਪੇਸ਼ ਕਰਦੇ ਹਨ. ਮੈਨੂੰ ਸਮਝ ਨਹੀਂ ਆ ਰਿਹਾ ਹੈ ਕਿ ਉਹ ਤੁਹਾਨੂੰ ਉਨ੍ਹਾਂ ਨੂੰ csv ਵਿਚ ਡਾ downloadਨਲੋਡ ਕਿਉਂ ਨਹੀਂ ਕਰਨ ਦਿੰਦੇ, ਜੋ ਕਿ ਹਰ ਕਿਸੇ ਲਈ ਵਧੇਰੇ ਲਾਭਦਾਇਕ ਹੋਵੇਗਾ.

ਇਸ ਲਈ ਮੈਂ ਇਕ ਦੀ ਭਾਲ ਕਰ ਰਿਹਾ ਹਾਂ ਇਨ੍ਹਾਂ ਟੇਬਲ ਨੂੰ ਪੀਡੀਐਫ ਤੋਂ ਸੀਐਸਵੀ ਵਿਚ ਪਾਸ ਕਰਨ ਦਾ ਹੱਲ ਜਾਂ ਜੇ ਕੋਈ ਐਕਸਲ ਜਾਂ ਲਿਬਰੇ ਆਫਿਸ ਨੂੰ ਫਾਰਮੈਟ ਕਰਨਾ ਚਾਹੁੰਦਾ ਹੈ. ਮੈਨੂੰ ਸੀ ਐਸ ਵੀ ਪਸੰਦ ਹੈ ਕਿਉਂਕਿ ਸੀ ਐਸ ਵੀ ਨਾਲ ਤੁਸੀਂ ਹਰ ਚੀਜ਼ ਕਰ ਸਕਦੇ ਹੋ ਜਿਸ ਨਾਲ ਤੁਸੀਂ ਅਜਗਰ ਅਤੇ ਇਸ ਦੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਨਾਲ ਨਜਿੱਠ ਸਕਦੇ ਹੋ ਜਾਂ ਤੁਸੀਂ ਇਸ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਕਿਸੇ ਵੀ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਆਯਾਤ ਕਰ ਸਕਦੇ ਹੋ.

ਜਿਵੇਂ ਕਿ ਇਹ ਵਿਚਾਰ ਇੱਕ ਸਵੈਚਾਲਤ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨਾ ਹੈ, ਮੈਂ ਜੋ ਚਾਹੁੰਦਾ ਹਾਂ ਪਾਈਥਨ ਦੇ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਇੱਕ ਸਕ੍ਰਿਪਟ ਹੈ ਅਤੇ ਇਹ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਤਬੁੱਲਾ ਆਉਂਦਾ ਹੈ.

Pdf ਨੂੰ csv ਵਿੱਚ ਤਬਲਾ ਨਾਲ ਤਬਦੀਲ ਕਰੋ

ਕਦਮ ਅਤੇ ਕਾਰਵਾਈ ਬਹੁਤ ਹੀ ਅਸਾਨ ਹੈ. ਪਹਿਲਾ ਹੋਵੇਗਾ ਸਾਡੇ ਵਿਕਾਸ ਵਾਤਾਵਰਣ ਵਿੱਚ ਤਬਲਾ ਲਾਇਬ੍ਰੇਰੀ ਸਥਾਪਤ ਕਰੋ. ਟੈਬੁਲਾ ਸਾਨੂੰ ਪੀਡੀਐਫ ਵਿੱਚ ਟੇਬਲ ਤੋਂ ਪਾਂਡਾ ਡੇਟਾਫ੍ਰੇਮਸ ਵਿੱਚ ਡੇਟਾ ਕੱractਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਪਾਈਥਨ ਲਾਇਬ੍ਰੇਰੀ ਸੀ ਐਸ ਵੀ ਅਤੇ ਐਰੇ ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਅਨੁਕੂਲ ਹੈ.

ਇਹ ਵੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਐਕਸਟਰੈਕਟ ਕਰੋ ਅਤੇ PDF, JSON, CSV ਅਤੇ TSV ਦੇ ਵਿਚਕਾਰ ਕਨਵਰਟ ਕਰੋ. ਇੱਕ ਰਤਨ ਤੁਸੀਂ ਇਸ ਵਿਚ ਹੋਰ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ github ਰਿਪੋਜ਼ਟਰੀ

ਮੈਂ ਪਿਛਲੇ ਦਿਨਾਂ ਤੋਂ ਸਾਰੇ ਕੰਮਾਂ ਦਾ ਲਾਭ ਲੈਂਦਾ ਹਾਂ ਅਤੇ ਇਸਨੂੰ ਐਨਾਕਾਂਡਾ ਵਿੱਚ ਸਥਾਪਿਤ ਕਰਦਾ ਹਾਂ. ਲਿੰਕ ਵਿਚ ਤੁਸੀਂ ਦੇਖ ਸਕਦੇ ਹੋ ਕਿਵੇਂ ਐਨਾਕਾਂਡਾ ਸਥਾਪਿਤ ਕਰੋ.

ਅਸੀਂ ਤਬੁਲਾ ਸਥਾਪਿਤ ਕਰਦੇ ਹਾਂ

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

ਇਸ ਨੂੰ ਚਲਾਉਣ ਵੇਲੇ, ਇਸ ਨੇ ਮੈਨੂੰ ਇੱਕ ਗਲਤੀ ਦਿੱਤੀ

ਹੱਲ ਜਿਵੇਂ ਉਨ੍ਹਾਂ ਦੇ ਦਸਤਾਵੇਜ਼ਾਂ ਵਿੱਚ ਦਰਸਾਇਆ ਗਿਆ ਸੀ ਉਹ ਹੈ ਤਾਬੂਲਾ ਦੇ ਪੁਰਾਣੇ ਸੰਸਕਰਣ ਨੂੰ ਅਨਇੰਸਟੌਲ ਕਰਨਾ ਅਤੇ ਨਵਾਂ ਸਥਾਪਤ ਕਰਨਾ.

pip uninstall tabula
pip install tabula-py

ਅਸੀਂ ਐਗਜ਼ੀਕਿਯੂਟੇਬਲ .ਪੀਪੀ ਬਣਾਉਂਦੇ ਹਾਂ

pdf ਤੋਂ csv ਤੱਕ ਟੇਬਲ ਪੜ੍ਹੋ

ਮੈਂ ਐਗਜ਼ੀਕਿਯੂਟੇਬਲ .py ਬਣਾਉਂਦਾ ਹਾਂ ਜਿਸ ਨੂੰ ਮੈਂ pdftocsv.py ਕਹਿੰਦੇ ਹਾਂ ਮੈਂ ਇਸਨੂੰ ਆਪਣੇ ਡਾਉਨਲੋਡਸ / ਐਲਟੀਐਮਪੋ ਫੋਲਡਰ ਵਿੱਚ ਪਾਉਂਦਾ ਹਾਂ ਅਤੇ ਇਹ ਹੇਠ ਦਿੱਤੇ ਕੋਡ ਵਾਲੀ ਇੱਕ ਫਾਈਲ ਹੈ

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

ਪੜ੍ਹਨ ਲਈ ਪੀਡੀਐਫ ਨੂੰ ਇਨਫੋਰੇਟਜ.ਪੀਡੀਐਫ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਮੈਂ ਇਸਨੂੰ ਦੱਸਦਾ ਹਾਂ ਕਿ ਆਉਟਪੁੱਟ ਨੂੰ ਆਉਟ ਸੀ.ਸੀ.ਵੀ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਇਹ ਉਸ ਫੋਲਡਰ ਵਿੱਚ ਰਹੇਗੀ ਜਿਸ ਵਿੱਚ ਅਸੀਂ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ.

ਅਸੀਂ ਉਸ ਡਾਇਰੈਕਟਰੀ ਵਿਚ ਜਾਂਦੇ ਹਾਂ ਜਿਥੇ ਸਾਡੇ ਕੋਲ ਐਗਜ਼ੀਕਿableਟੇਬਲ ਅਤੇ ਪੀਡੀਐਫ ਦੋਵੇਂ ਹੁੰਦੇ ਹਨ ਜਿਸ ਨੂੰ ਅਸੀਂ ਕਨਵਰਟ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ. ਇਹ ਮਹੱਤਵਪੂਰਣ ਹੈ ਕਿਉਂਕਿ ਜੇ ਇਹ ਸਾਨੂੰ ਦੱਸੇਗਾ ਕਿ ਇਹ ਫਾਈਲ ਨਹੀਂ ਲੱਭ ਸਕਦਾ.

cd Descargas/eltiempo

ਇਸ ਡਾਇਰੈਕਟਰੀ ਵਿਚ ਸਾਡੇ ਕੋਲ ਪੀਡੀਐਫ, .py ਫਾਈਲ ਹੈ ਜੋ ਅਸੀਂ ਬਣਾਈ ਹੈ ਅਤੇ ਉਥੇ ਹੀ ਇਹ ਸੀ ਐਸ ਵੀ ਵਾਪਸ ਕਰ ਦੇਵੇਗਾ ਜਿਸਦੀ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ.

ਅਸੀਂ ਕੋਡ ਨੂੰ ਚਲਾਉਂਦੇ ਹਾਂ

python pdftocsv.py

ਧਿਆਨ ਦਿਓ ਕਿ ਮੈਂ ਪਾਈਥਨ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ, ਅਰਥਾਤ ਮੈਂ ਇਸਨੂੰ ਪਾਈਥਨ 2 ਨਾਲ ਚਲਾਉਣ ਲਈ ਕਹਿੰਦਾ ਹਾਂ ਨਾ ਕਿ ਪਾਈਥਨ 3 ਨਾਲ ਜੋ ਅਸਫਲ ਹੁੰਦਾ ਹੈ. ਅਤੇ ਇਹ ਉਹ ਹੈ ਜੇ ਇਹ ਕੋਈ ਗਲਤੀ ਵਾਪਸ ਨਹੀਂ ਕਰਦਾ, ਸਾਡੇ ਕੋਲ ਪਹਿਲਾਂ ਹੀ ਹੈ.

ਸਾਡੇ ਐਨਾਕਾਂਡਾ ਵਿਕਾਸ ਵਾਤਾਵਰਣ ਵਿੱਚ ਤਬਲਾ ਚਲਾਓ

ਰਨਟਾਈਮ ਕੰਟਰੋਲ ਲਈ ਅਸੀਂ ਫਾਈਲ ਵਿਚ 3 ਹੋਰ ਲਾਈਨਾਂ ਜੋੜੀਆਂ ਹਨ. ਅੰਤ ਵਿੱਚ ਅਸੀਂ ਆਪਣੀ pdftocsv.py ਫਾਈਲ ਨੂੰ ਇਸ ਤਰਾਂ ਛੱਡ ਦਿੱਤਾ ਹੈ

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

ਟੱਬੂਲਾ ਤੋਂ ਹੋਰ ਵਿਕਲਪ

ਚੀਜ਼ਾਂ ਦੀਆਂ ਵਧੇਰੇ ਉਦਾਹਰਣਾਂ ਜੋ ਅਸੀਂ ਕਰ ਸਕਦੇ ਹਾਂ. ਇੱਥੇ ਬਹੁਤ ਸਾਰੇ ਵਿਕਲਪ ਹਨ, ਸਰਕਾਰੀ ਗਿਤੁਬ ਰਿਪੋਜ਼ਟਰੀ ਵਿਚੋਂ ਲੰਘਣਾ ਵਧੀਆ ਹੈ ਜੋ ਮੈਂ ਛੱਡਿਆ ਹੈ

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

ਅਤੇ ਬਿਨਾਂ ਸ਼ੱਕ ਇਕ ਡਾਇਰੈਕਟਰੀ ਵਿਚਲੀਆਂ ਸਾਰੀਆਂ ਪੀਡੀਐਫ, ਜੇਐਸਐਨ, ਆਦਿ ਫਾਈਲਾਂ ਨੂੰ ਕਨਵਰਟ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਲਾਭਦਾਇਕ ਚੀਜ਼ਾਂ ਵਿਚੋਂ ਇਕ.

tabula.convert_into_by_batch("input_directory", output_format='csv')

ਇਸਦੇ ਨਾਲ ਅਸੀਂ ਕਾਰਜਾਂ ਨੂੰ ਸਵੈਚਾਲਿਤ ਕਰ ਸਕਦੇ ਹਾਂ ਜੋ ਨਹੀਂ ਤਾਂ ਲੰਬੇ ਅਤੇ edਖੇ ਹੋਣਗੇ. ਅੰਤ ਵਿੱਚ, ਇਹ ਇਸ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਵਰਤਣ ਦਾ ਇੱਕ ਕਾਰਨ ਹੈ.

Excelਨਲਾਈਨ ਐਕਸਲ ਕਰਨ ਲਈ ਪੀਡੀਐਫ ਨੂੰ ਕਨਵਰਟ ਕਰੋ

ਜੇ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਿਰਫ਼ ਇੱਕ ਫਾਈਲ ਨੂੰ ਕਨਵਰਟ ਕਰਨਾ ਹੈ, ਟੇਬਲ ਤੋਂ ਡੇਟਾ ਨੂੰ ਐਕਸਟਰੈਕਟ ਤੋਂ ਐਕਸੈਲ, ਲਿਬਰੇਕਲ ਜਾਂ ਇਸ ਤੋਂ ਮਿਲਣਾ ਚਾਹੀਦਾ ਹੈ, ਇਸ ਲਈ ਇੰਨਾ ਜਟਿਲ ਹੋਣਾ ਜਰੂਰੀ ਨਹੀਂ ਹੈ. ਅਜਿਹਾ ਕਰਨ ਲਈ ਉਪਕਰਣ ਉਪਲਬਧ ਹਨ, ਕੁਝ ਸਥਾਪਤ ਕਰਨ ਲਈ ਅਤੇ ਕੁਝ ਕੰਮ ਆਨਲਾਈਨ ਕਰਨ ਲਈ.

ਮੈਂ ਇਨ੍ਹਾਂ ਦੋ toolsਨਲਾਈਨ ਸਾਧਨਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਹੈ ਅਤੇ ਉਹ ਬਹੁਤ ਵਧੀਆ wellੰਗ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ.

ਯਾਦ ਰੱਖੋ ਕਿ ਇਹ ਸਵੈਚਾਲਿਤ ਨੌਕਰੀ ਨਹੀਂ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਇਨ੍ਹਾਂ ਸਾਧਨਾਂ ਦਾ ਅਧਿਐਨ ਪੂਰਾ ਨਹੀਂ ਹੋਇਆ ਹੈ. ਮੈਂ ਉਨ੍ਹਾਂ 'ਤੇ ਸਿਰਫ ਉਨ੍ਹਾਂ ਲਈ ਟਿੱਪਣੀ ਕਰਦਾ ਹਾਂ ਜਿਹੜੇ ਦਿਲਚਸਪੀ ਰੱਖ ਸਕਦੇ ਹਨ.

ਕਲਾਸੀਕਲ ਵਿਧੀ

ਅਤੇ ਸਾਡੇ ਕੋਲ ਹਮੇਸ਼ਾਂ ਟਕਸਾਲੀ methodੰਗ ਹੈ, ਸਭ ਤੋਂ ਗੰਦਾ ਅਤੇ ਮਹਿੰਗਾ ਪਰ ਅੰਤ ਵਿੱਚ ਇਹ ਇੱਕ ਵਿਕਲਪ ਹੈ ਜੇ ਥੋੜਾ ਜਿਹਾ ਕੰਮ ਹੁੰਦਾ ਹੈ.

ਟੇਬਲ ਸੈੱਲਾਂ ਨੂੰ ਪੀਡੀਐਫ ਤੋਂ ਨਕਲ ਕਰੋ ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਡੀ ਸਪ੍ਰੈਡਸ਼ੀਟ ਵਿੱਚ ਪੇਸਟ ਕਰੋ.

Déjà ਰਾਸ਼ਟਰ ਟਿੱਪਣੀ