استخراج داده‌های جداول از PDF  بدون برنامه‌نویسی   

pdftocsv

مقدمه

در دنیای دیجیتالیزه شده امروز، فایل‌های PDF یکی از رایج‌ترین استانداردهای ارائه اسناد هستند. از گزارش‌های عمومی دولتی تا گزارش‌های مالی و مقالات علمی؛ بسیاری از اطلاعات ارزشمند در قالب جداول به صورت PDF ذخیره می‌شوند. استخراج داده‌های جداول از فایل‌های PDF، یکی از چالش‌های معمول در حوزه کار با این اسناد است و چه به‌عنوان تحلیلگر داده‌ی آماری یا دیتاژورنالیست، دردسر این موضوع به‌تنهایی پتانسیل این را دارد که از آن موضوع در هر سطح اهمیتی گذر کنی و اصطلاحاً بی‌خیالش بشی.

اما این دردسر آیا می‌تواند ضرورت اهمیت این کار را کم کند؟ برای مثال اگر به‌عنوان پژوهشگر یا روزنامه‌نگار در حوزه عمومی کار کرده باشید می‌دانید که بسیاری از گزارش‌های عمومی و دولتی که داده‌های ارزشمندی را در دل خود جای داده‌اند، با فرمتPDF  منتشر می‌شوند؛ بودجه‌ی سالانه، گزارش‌های سالانه مرکز آمار و دیگر وزارتخانه‌ها و … که امکان تحلیل ماشینی به‌صورت مستقیم ندارد و همین امر باعث بی‌توجهی و غافل شدن از این اطلاعات مهم می‌شود.

خوب راه‌حل چیه؟ برنامه‌نویسی استخراج داده‌ها از PDF‌ها چالش‌های خاص خودش را دارد و وقتی با متن فارسی سروکله می‌زنید این چالش‌ها به طرز عجیبی قرار هست بیشتر اذیت‌تون کنه. راه دومی که پیش‌تر استفاده می‌شد، کپی و پیست دستی داده‌ها است که نه‌تنها وقت‌گیر است، بلکه می‌تواند منجر به اشتباهات انسانی شود. اما این فرایند راه‌حل ساده‌ای دارد و خوشبختانه، ابزارهایی وجود دارند که بدون نیاز به دانش برنامه‌نویسی، می‌توانند این فرآیند را ساده‌تر کنند و چندین ابزار ساده و کاربرپسند وجود دارد که به شما اجازه می‌دهد بدون نیاز به کدنویسی، داده‌های جداول را به‌راحتی از فایل‌های PDF استخراج کنید. در این یادداشت، به معرفی و آموزش 4 ابزار و روش کاربردی که می‌تواند به شما در استخراج داده‌های جدول از PDF کمک می‌کنند، می‌پردازم.

{در این آموزش از فایل PDF گزارش سالنامه آماری 1401 در مرکز آمار ایران استفاده‌شده است}

 

تابولا Tabula

 Tabula را می‌توان به‌عنوان پیش‌کسوت این حوزه معرفی کرد اما همچنان کاربردی است؛ تابولا یکی از ساده‌ترین و کاربرپسندترین ابزارها برای استخراج جداول از فایل‌های PDF است. این ابزار رایگان و متن‌باز بوده و به کاربر امکان می‌دهد تا بدون نیاز به دانش فنی، جداول PDF را به‌راحتی استخراج کنید و دقت بالایی دارد و امکان استخراج هم‌زمان چند جدول را در اختیار شما می‌گذارد. آخرین نسخه‌ی منتشر شده تابولا سال 2018 منتشر شده است.

تابولا توانایی استخراج داده‌ها از PDF‌هایی که به‌صورت ماشینی تولید شده‌اند را دارد و به این نکته توجه داشته‌باشید که اگر فایل شما خروجی اسکن شده هستند، باید به فکر راه‌حل‌های دیگری باشید.

راهنمای استفاده از تابولا

1- فایل برنامه را از سایت تابولا دانلود کنید. نسخه‌های ویندوز و مک در سایت در دسترس هست و اگر از لینوکس استفاده می‌کنید می‌توانید از راهنمای نصب آن را از مخزن گیتهاب آن بخوانید:

Tabula.technology

2- فایل دانلود شده را از حالت فشرده خارج کنید و فایل tabula را باز کنید. اگر مشکلی وجود نداشته باشد، صفحه مرورگر باز می‌شود و اگر به‌صورت خودکار باز نشد می‌‌توانید به‌صورت دستی http://127.0.0.1:8080 را باز کنید و فایل خود را Import کنید و صبر کنید پردازش اولیه بر آن انجام شود. زمان پردازش وابسته به حجم فایل و سخت‌افزار شما است.

این نکته را به یاد داشته باشید که تابولا بر بستر Java نوشته شده و برای اجرای آن نیاز هست  که جاوا را روی سیستم خود نصب کنید.

3- در صفحه‌‌ای که باز می‌شود می‌توانید صفحات مختلف را ورق بزنید و جداول که‌می‌خواهید را انتخاب کنید. گوشه‌ی جدول را کلیک کنید و نشانگر ماوس را بکشید تا محیط مشخص شود.اگر از فایل‌هایی مثل بودجه استفاده می‌کنید که جدول‌ها در صفحات مختلف تکرار شده‌اند گزینه‌ی Autodetect Tables، با دقت خوبی کل جدول‌ها را انتخاب می‌کند. پس از اتمام کار گزینه Preview & Export Extracted Data  را فشار دهید تا پیش‌نمایش جداول به شما نمایش داده شود.

4- تمام! پیش‌نمایش جدول را می‌توانید پیش روی خود ببینید و از بخش Export Format، فرمت مناسب خود را انتخاب کنید و دانلود کنید. (اگر فرمت‌ها را نمی‌شناسید، فرمت پیش‌فرض CSV گزینه‌ی مناسبی برای کار در نرم‌افزارهای مختلف هست.)

از بخش‌های My Templates  می‌توانید قالب‌هایی را برای فایل‌های خاص بسازید که در مراحل بعد نیازی به انجام فرایندهای تکراری نباشد و یادگیری این بخش را بر عهده‌ی خودتان می‌گذارم که آن را کشف کنید.

دقت کنید که اگر چه فایل در مرورگر باز می‌شود اما آدرس شبکه‌ی داخلی شما هست و فایل‌ها از سیستم شما بیرون نمی‌رود و امنیت آن‌ها به خطر نمی‌افتد.

 

مایکروسافت اکسل

یکی دیگر از ابزارهایی که می‌توانید برای استخراج داده‌های جداول از فایل‌های PDF استفاده کنید، Microsoft Excel  است. اکسل نیاز به معرفی خاصی ندارد و رابط کاربری آشنای آن مهم‌ترین مزایای آن هست و می‌توانید پس از استخراج به‌سرعت کار بر روی داده‌ها را آغاز کنید. قابلیت باز کردن فایل‌های PDF و استخراج داده‌های جدول به‌صورت خودکار در نسخه‌های جدید اکسل، اضافه شده است.

راهنمای استفاده از اکسل

1- نرم‌افزار اکسل را باز کنید و از سربرگ Data، گزینه Get Data  را باز کنید و از بخش From File  گزینه PDF  را بزنید و فایل مورد نظر خود را وارد کنید و صبر کنید تا پردازش تمام شود و صفحه Navigator  باز شود و گزینه‌ها نمایش داده شود.

2- همان‌طور که در تصویر زیر می‌بینید تمامی جداول گزارش که توسط اکسل شناسایی شده در فهرست زیر مشخص هست و می‌توانید صفحه‌ای که مایل هستید را انتخاب کنید یا با فعال کردن گزینه Select Multiple Items  در سایدبار به‌صورت هم‌زمان چند گزینه را انتخاب کنید. پس از اتمام کار با فشار دادن گزینه Load  داده‌های به شیت اکسل شما وارد می‌شود. این ابزار از Power Query  کمک می‌گیرد و با فشار دادن Transform Data ابتدا به صفحه power query وارد می‌شوید و (اگر تغییراتی دارید/ندارید اعمال کنید ) و از آنجا دوباره گزینه انتقال به شیت را می‌توانید بزنید.

فضای کاری آشنا و امکان استخراج و ویرایش هم‌زمان داده‌ها در اکسل می‌تواند گزینه‌ی قابل قبولی برای بسیاری از کاربران باشد و تجربه کار با آن در متون فارسی برای من لذت‌بخش بوده و دقت بسیار بالایی در استخراج داشته و نیازمند کمترین زمان برای ویرایش خروجی‌ها را داشته است.

 

Adobe Acrobat Pro

نرم‌‌افزار آشنا و رایگان Acrobat reader که تا مدت‌ها PDF‌خوان پیش‌فرض بسیاری بود یک برادر پولی داره که جز نمایش، امکان‌های زیادی مثل ویرایش PDF  هم در اختیار کاربر می‌گذارد و در نسخه‌های جدید خروجی‌های نسبتاً قابل قبولی از تبدیل فایل‌های فارسی نیاز داشته است.

راهنمای استفاده از Adobe Acrobat Pro

 1- فایل PDF مورد نظر خود را با آن باز کنید و جدولی که می‌خواهید از آن خروجی بگیرید را با کمک ماوس انتخاب کنید و روی آن راست کلیک کنید. در منوی باز شده دو انتخاب دارید؛

Copy with Formating: بخشی که مد نظرتان هست را با حفظ چارچوب‌های آن کپی می‌کند و می‌توانید آن را در فضایی مثل ورد یا اکسل به‌صورت مستقیم کپی کنید. در تجربه من با آن، چسباندن (Past) کردن در ورد کیفیت قابل قبولی دارد اما در انتقال مستقیم به اکسل حروف فارسی در هم ریخته می‌شوند. (انتقال به ورد و سپس کپی مجدد و انتقال به اکسل، قابل قبول بود)

Export selection as: با انتخاب این گزینه بخش انتخابی به‌صورت مستقیم در قالب خروجی‌هایی که در تصویر زیر می‌بینید تحویل داده می‌شود و با اغماض کیفیت قابل قبولی داشت و می‌توانید در تصویر زیرین آن را ببینید.

این نرم‌افزار از سویی امکان استخراج اتوماتیک چند جدول را نمی‌دهد و از سوی دیگر به دلیل مشکلاتی که با متن‌های فارسی دارد برای کارهای بزرگ مناسب نیست.

 

هوش مصنوعی

امروزه با پیشرفت‌های هوش مصنوعی که گره‌‌ای نیست که نشه باهاش باز نکرد و بات‌های هوش مصنوعی مثل ChatGPT، کلاود یا Gemini  گوگل خیلی راحت می‌توانند بهتون کمک کنند.

برای استفاده من با دو راه به نتیجه رسیده‌م و شما می‌توانید راه‌های دیگری نیز تست کنید؛

1- ارسال تصویر جدول: تصویر جداول را با اسکرین‌ گرفتن از فایل یا آپلود فایل ذخیره در بات و نوشتن پرامپت ساده‌ی « اطلاعات این جدول را به‌صورت خروجی مارکداون برام بفرست» به نتیجه زیر رسیدم. اگر مارکداون را نمی‌شناسید، پیشنهاد می‌کنم در مورد آن گوگل کنید یا از خود هوش مصنوعی بپرسید.

 

تصویر از Claude.ai است.

2- آپلود کل فایل: هوش مصنوعی‌ها زمانی که فایل pdf یا اسناد دیگر را دریافت می‌کنند، نمی‌توانند آن را به‌صورت یک فایل یکپارچه بفهمند. توضیح ساده این است که فایل را تکه تکه می‌کنند و مثلا کلمه به کلمه آن را می‌خوانند سپس در شبکه‌ای مرتبط با هم آن را فهم می‌کنند. در این فرایند زمانی که کاربر درخواست ارسال صفحه‌ی خاصی کند با خطایی روبرو می‌شوید که هوش مصنوعی از ناتوانی در فهم شماره صفحه می‌گوید و درخواست ارسال موضوع خاص از کاربر می‌کند:

زمانی که عنوان جدول مورد نظر را ارسال کنید اما اصل جدول را با توضیحات لازم ارسال می‌کند. دقت کنید که دلیل ارسال جدول انگلیسی این هست که من در شروع صحبت با آن انگلیسی صحبت کرده‌ام و پس از ارسال جدول انگلیسی برای اطمینان از صحت داده‌ها درخواست ارسال جدول به‌صورت فارسی کردم و به درستی جواب را برگرداند. در نهایت خروجی جدول را می‌توانید به اکسل منتقل کنید.

 

تصاویر از ChatGPT.com است.

علاوه بر بات‌هایی، پلتفرم‌هایی کمک گرفته از هوش مصنوعی هست که اختصاصاً برای چنین کارهایی آموزش دیده‌اند به‌صورت پولی یا رایگان محدود فعالیت می‌کنند و می‌توانید آن‌ها را با جست‌و‌جویی کوتاه در اینترنت بیابید.

جمع‌بندی

در این یادداشت، چهار ابزار محبوب و کارآمد برای استخراج جداول از فایل‌های PDF بدون نیاز به برنامه‌نویسی معرفی شد :  Tabula، Microsoft Excel، Adobe Acrobat Pro و ابزارهای مبتنی بر هوش مصنوعی که هر یک از این ابزارها با توجه به نیازهای مختلف کاربران، از افراد مبتدی تا حرفه‌ای، راه‌حل‌های ساده و قابل اطمینانی ارائه می‌دهند.

در کنار این ابزارها، ابزارهای دیگری نیز در بازار موجود هستند که ممکن است بسته به نیاز کاربران مفید واقع شوند. برخی ابزارهای آنلاین و نرم‌افزارهای دیگر نیز قابلیت استخراج داده‌ها از PDF را دارند که می‌توانند در شرایط خاص، جایگزین‌های مناسبی باشند و اگر تجربه‌های دیگری دارید می‌توانید آن را به اشتراک بگذارید تا به این فهرست اضافه شوند.

در آینده این یادداشت به‌روزرسانی خواهد شد تا ابزارهای جدیدتر و کاربردی‌تر را نیز معرفی کند. همچنین، یادداشت‌های دیگری در زمینه‌های مرتبط مانند استخراج جداول از سایت‌های اینترنتی و استخراج داده‌ها از نمودارها و گراف‌ها منتشر خواهد شد که به شما کمک می‌کند تا داده‌های موردنیاز خود را به‌راحتی از منابع مختلف دریافت کنید.

برای دریافت اطلاعات در مورد انتشار یادداشت‌های جدید و به‌روزرسانی‌های این مقاله، ما را در شبکه‌های اجتماعی دنبال کنید.

 
 

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors