ටැබුල සමඟ PDF සිට එක්සෙල් හෝ CSV බවට වගු පරිවර්තනය කරන්නේ කෙසේද

Pdf csv සහ Excel බවට පරිවර්තනය කර පරිවර්තනය කරන්න

මගේ නගරයේ කාලගුණ විද්‍යා නිරීක්ෂණාගාරයක් ඉදිරිපත් කළ data තිහාසික දත්ත දෙස බලන විට මට එය පෙනේ ඔවුන් ඒවා ප්‍රස්ථාරිකව සහ PDF ලෙස බාගත කිරීම සඳහා පමණක් ඉදිරිපත් කරයි. සෑම කෙනෙකුටම වඩා ප්‍රයෝජනවත් වන csv මඟින් ඒවා බාගත කිරීමට ඔවුන් ඔබට ඉඩ නොදෙන්නේ මන්දැයි මට තේරෙන්නේ නැත.

ඉතින් මම එකක් හොයනවා මෙම වගු පීඩීඑෆ් සිට සීඑස්වී වෙත යැවීමට හෝ යමෙකුට එක්සෙල් හෝ ලිබ්‍රේ ඔෆිස් ආකෘතිකරණය කිරීමට අවශ්‍ය නම් විසඳුම. මම csv ට කැමතියි මන්ද csv එකකින් ඔබට එය හැසිරවිය හැකි සෑම දෙයක්ම පයිතන් සහ එහි පුස්තකාල සමඟ කළ හැකි අතර ඔබට ඕනෑම පැතුරුම්පතකට පහසුවෙන් ආනයනය කළ හැකිය.

ස්වයංක්‍රීය ක්‍රියාවලියක් සාක්ෂාත් කර ගැනීමේ අදහස වන බැවින්, මට අවශ්‍ය වන්නේ පයිතන් සමඟ වැඩ කිරීමට පිටපතක් වන අතර ටබුලා පැමිණෙන්නේ මෙහිදීය.

ටබුලා සමඟ පීඩීඑෆ් සීඑස්වී බවට පරිවර්තනය කරන්න

පියවර සහ ක්රියාකාරිත්වය ඉතා සරල ය. පළමුවැන්න වනු ඇත අපගේ සංවර්ධන පරිසරය තුළ ටබුලා පුස්තකාලය ස්ථාපනය කරන්න. පී.ඩී.එෆ් හි වගු වලින් දත්ත පැන්ඩස් දත්ත රාමු වෙත ලබා ගැනීමට ටැබුලා අපට ඉඩ දෙයි, පයිතන් පුස්තකාලය සීඑස්වී සහ අරා සමඟ වැඩ කිරීම සඳහා ප්‍රශස්ත කර ඇත.

එය ද ඉඩ දෙයි PDF, JSON, CSV සහ TSV අතර උපුටා ගැනීම සහ පරිවර්තනය කිරීම. මැණික් වර්ගයක්. ඔබට එහි තවත් බොහෝ තොරතුරු සොයාගත හැකිය github ගබඩාව

අපගේ තැපැල් ලැයිස්තුවට දායක වන්න

මම පෙර දිනවල සිට සියලු වැඩ වලින් ප්‍රයෝජන ගෙන එය ඇනකොන්ඩා හි ස්ථාපනය කරමි. සබැඳිය තුළ ඔබට එය දැක ගත හැකිය ඇනකොන්ඩා ස්ථාපනය කරන්න.

අපි ටබුලා ස්ථාපනය කරමු

#primero activamos nuestro entorno de desarrollo en nuestro caso sería conda activate comparador
pip install tabula-py

එය ක්‍රියාත්මක කිරීමේදී එය මට දෝෂයක් ලබා දුන්නේය

ඔවුන්ගේ ලියකියවිලිවල දක්වා ඇති විසඳුම වූයේ ටබුලා හි පැරණි අනුවාදය අස්ථාපනය කර නව එකක් ස්ථාපනය කිරීමයි.

pip uninstall tabula
pip install tabula-py

අපි ක්‍රියාත්මක කළ හැකි .py

pdf සිට csv දක්වා වගු කියවන්න

මම pdftocsv.py ලෙස හඳුන්වන ක්‍රියාත්මක කළ හැකි .py නිර්මාණය කරමි. එය මගේ බාගැනීම් / එල්ටෙම්පෝ ෆෝල්ඩරයට දැමූ අතර එය පහත කේතය සහිත ගොනුවකි

import tabula
# Extaer los datos del pdf al DataFrame
df = tabula.read_pdf("inforatge.pdf")
# lo convierte en un csv llamdo out.csv codificado con utf-8
df.to_csv('out.csv', sep='\t', encoding='utf-8')

කියවීමට ඇති පීඩීඑෆ් inforatge.pdf ලෙස හඳුන්වන අතර ප්‍රතිදානය out.csv ලෙස හඳුන්වන අතර එය අප වැඩ කරන ෆෝල්ඩරයේ රැඳෙනු ඇත.

අපි පරිවර්තනය කළ යුතු ක්‍රියාත්මක කළ හැකි සහ පීඩීඑෆ් යන දෙකම ඇති නාමාවලියට යන්නෙමු. එය වැදගත් වන්නේ එයට ගොනුව සොයාගත නොහැකි බව එය අපට කියන්නේ නම්.

cd Descargas/eltiempo

මෙම නාමාවලියෙහි අප සතුව PDF, .py ගොනුව අප විසින් නිර්මාණය කර ඇති අතර එහිදී එය අපට අවශ්‍ය csv නැවත ලබා දෙනු ඇත.

අපි කේතය ක්‍රියාත්මක කරමු

python pdftocsv.py

මම පයිතන් භාවිතා කර ඇති බව සැලකිල්ලට ගන්න, එනම්, එය පයිතන් 2 සමඟ ධාවනය කිරීමට මිස අසමත් වන පයිතන් 3 සමඟ නොවේ. එය කිසියම් දෝෂයක් නැවත ලබා නොදෙන්නේ නම්, එය දැනටමත් අප සතුව ඇත.

අපගේ ඇනකොන්ඩා සංවර්ධන පරිසරය තුළ ටබුලා ධාවනය කරන්න

ධාවන කාල පාලනය සඳහා අපි තවත් පේළි 3 ක් ගොනුවට එකතු කර ඇත්තෙමු. අවසානයේදී අපි අපගේ pdftocsv.py ගොනුව එලෙසම තබා ඇත

import tabula
import time

start_time = time.time()

df = tabula.read_pdf("inforatge.pdf")
df.to_csv('out.csv', sep='\t', encoding='utf-8')

print("--- %s seconds ---" % (time.time() - start_time))

ටබුලා වෙතින් තවත් විකල්ප

අපට කළ හැකි දේ පිළිබඳ තවත් උදාහරණ. බොහෝ විකල්ප ඇත, මා අතහැර දමා ඇති නිල ගිතුබ් ගබඩාව හරහා යාම වඩාත් සුදුසුය

# Leer PDF remotos y convertirlos en DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# Convertir un PDF en CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

ඩිරෙක්ටරියක් තුළ ඇති සියලුම PDF, JSON, ආදිය ගොනු පරිවර්තනය කිරීමට වඩාත්ම ප්‍රයෝජනවත් දේ බවට සැකයක් නැත.

tabula.convert_into_by_batch("input_directory", output_format='csv')

මේ සමඟ අපට දිගු හා වෙහෙසකාරී කාර්යයන් ස්වයංක්‍රීය කළ හැකිය. අවසානයේදී, මෙම පුස්තකාලය භාවිතා කිරීමට මෙය එක් හේතුවකි.

පීඩීඑෆ් ඔන්ලයින් විශිෂ්ටත්වයට පරිවර්තනය කරන්න

අපට අවශ්‍ය වන්නේ ගොනුවක් සරලව පරිවර්තනය කිරීම, PDF සිට Excel, Librecalc හෝ ඊට සමාන දත්ත උපුටා ගැනීම නම්, එය එතරම් සංකීර්ණ කිරීම අවශ්‍ය නොවේ. මෙය සිදු කිරීම සඳහා මෙවලම් තිබේ, සමහරක් ස්ථාපනය කිරීමට සහ සමහර ඒවා අන්තර්ජාලය හරහා සිදු කිරීමට.

මම මෙම මාර්ගගත මෙවලම් දෙක අත්හදා බැලූ අතර ඒවා ඉතා හොඳින් ක්‍රියාත්මක වේ.

මෙය ස්වයංක්‍රීය රැකියාවක් නොවන බව මතක තබා ගන්න, එම නිසා මෙම මෙවලම් අධ්‍යයනය කිරීම පරිපූර්ණ නොවීය. මම ඔවුන් ගැන අදහස් දක්වන්නේ උනන්දුවක් දක්වන අය සඳහා පමණි.

සම්භාව්ය ක්රමය

අපට සෑම විටම සම්භාව්‍ය ක්‍රමය ඇත, වඩාත්ම අලස හා මිල අධික නමුත් අවසානයේ එය සුළු වැඩක් නම් විකල්පයකි.

පීඩීඑෆ් වෙතින් මේස සෛල පිටපත් කර ඒවා අපගේ පැතුරුම්පතට අලවන්න.

අදහස අත්හැර