مقدمه
در دنیای دیجیتالیزه شده امروز، فایلهای PDF یکی از رایجترین استانداردهای ارائه اسناد هستند. از گزارشهای عمومی دولتی تا گزارشهای مالی و مقالات علمی؛ بسیاری از اطلاعات ارزشمند در قالب جداول به صورت PDF ذخیره میشوند. استخراج دادههای جداول از فایلهای PDF، یکی از چالشهای معمول در حوزه کار با این اسناد است و چه بهعنوان تحلیلگر دادهی آماری یا دیتاژورنالیست، دردسر این موضوع بهتنهایی پتانسیل این را دارد که از آن موضوع در هر سطح اهمیتی گذر کنی و اصطلاحاً بیخیالش بشی.
اما این دردسر آیا میتواند ضرورت اهمیت این کار را کم کند؟ برای مثال اگر بهعنوان پژوهشگر یا روزنامهنگار در حوزه عمومی کار کرده باشید میدانید که بسیاری از گزارشهای عمومی و دولتی که دادههای ارزشمندی را در دل خود جای دادهاند، با فرمتPDF منتشر میشوند؛ بودجهی سالانه، گزارشهای سالانه مرکز آمار و دیگر وزارتخانهها و … که امکان تحلیل ماشینی بهصورت مستقیم ندارد و همین امر باعث بیتوجهی و غافل شدن از این اطلاعات مهم میشود.
خوب راهحل چیه؟ برنامهنویسی استخراج دادهها از PDFها چالشهای خاص خودش را دارد و وقتی با متن فارسی سروکله میزنید این چالشها به طرز عجیبی قرار هست بیشتر اذیتتون کنه. راه دومی که پیشتر استفاده میشد، کپی و پیست دستی دادهها است که نهتنها وقتگیر است، بلکه میتواند منجر به اشتباهات انسانی شود. اما این فرایند راهحل سادهای دارد و خوشبختانه، ابزارهایی وجود دارند که بدون نیاز به دانش برنامهنویسی، میتوانند این فرآیند را سادهتر کنند و چندین ابزار ساده و کاربرپسند وجود دارد که به شما اجازه میدهد بدون نیاز به کدنویسی، دادههای جداول را بهراحتی از فایلهای PDF استخراج کنید. در این یادداشت، به معرفی و آموزش 4 ابزار و روش کاربردی که میتواند به شما در استخراج دادههای جدول از PDF کمک میکنند، میپردازم.
{در این آموزش از فایل PDF گزارش سالنامه آماری 1401 در مرکز آمار ایران استفادهشده است}
تابولا Tabula
Tabula را میتوان بهعنوان پیشکسوت این حوزه معرفی کرد اما همچنان کاربردی است؛ تابولا یکی از سادهترین و کاربرپسندترین ابزارها برای استخراج جداول از فایلهای PDF است. این ابزار رایگان و متنباز بوده و به کاربر امکان میدهد تا بدون نیاز به دانش فنی، جداول PDF را بهراحتی استخراج کنید و دقت بالایی دارد و امکان استخراج همزمان چند جدول را در اختیار شما میگذارد. آخرین نسخهی منتشر شده تابولا سال 2018 منتشر شده است.
تابولا توانایی استخراج دادهها از PDFهایی که بهصورت ماشینی تولید شدهاند را دارد و به این نکته توجه داشتهباشید که اگر فایل شما خروجی اسکن شده هستند، باید به فکر راهحلهای دیگری باشید.
راهنمای استفاده از تابولا
1- فایل برنامه را از سایت تابولا دانلود کنید. نسخههای ویندوز و مک در سایت در دسترس هست و اگر از لینوکس استفاده میکنید میتوانید از راهنمای نصب آن را از مخزن گیتهاب آن بخوانید:
2- فایل دانلود شده را از حالت فشرده خارج کنید و فایل tabula را باز کنید. اگر مشکلی وجود نداشته باشد، صفحه مرورگر باز میشود و اگر بهصورت خودکار باز نشد میتوانید بهصورت دستی http://127.0.0.1:8080 را باز کنید و فایل خود را Import کنید و صبر کنید پردازش اولیه بر آن انجام شود. زمان پردازش وابسته به حجم فایل و سختافزار شما است.
این نکته را به یاد داشته باشید که تابولا بر بستر Java نوشته شده و برای اجرای آن نیاز هست که جاوا را روی سیستم خود نصب کنید.
3- در صفحهای که باز میشود میتوانید صفحات مختلف را ورق بزنید و جداول کهمیخواهید را انتخاب کنید. گوشهی جدول را کلیک کنید و نشانگر ماوس را بکشید تا محیط مشخص شود.اگر از فایلهایی مثل بودجه استفاده میکنید که جدولها در صفحات مختلف تکرار شدهاند گزینهی Autodetect Tables، با دقت خوبی کل جدولها را انتخاب میکند. پس از اتمام کار گزینه Preview & Export Extracted Data را فشار دهید تا پیشنمایش جداول به شما نمایش داده شود.
4- تمام! پیشنمایش جدول را میتوانید پیش روی خود ببینید و از بخش Export Format، فرمت مناسب خود را انتخاب کنید و دانلود کنید. (اگر فرمتها را نمیشناسید، فرمت پیشفرض CSV گزینهی مناسبی برای کار در نرمافزارهای مختلف هست.)
از بخشهای My Templates میتوانید قالبهایی را برای فایلهای خاص بسازید که در مراحل بعد نیازی به انجام فرایندهای تکراری نباشد و یادگیری این بخش را بر عهدهی خودتان میگذارم که آن را کشف کنید.
دقت کنید که اگر چه فایل در مرورگر باز میشود اما آدرس شبکهی داخلی شما هست و فایلها از سیستم شما بیرون نمیرود و امنیت آنها به خطر نمیافتد.
مایکروسافت اکسل
یکی دیگر از ابزارهایی که میتوانید برای استخراج دادههای جداول از فایلهای PDF استفاده کنید، Microsoft Excel است. اکسل نیاز به معرفی خاصی ندارد و رابط کاربری آشنای آن مهمترین مزایای آن هست و میتوانید پس از استخراج بهسرعت کار بر روی دادهها را آغاز کنید. قابلیت باز کردن فایلهای PDF و استخراج دادههای جدول بهصورت خودکار در نسخههای جدید اکسل، اضافه شده است.
راهنمای استفاده از اکسل
1- نرمافزار اکسل را باز کنید و از سربرگ Data، گزینه Get Data را باز کنید و از بخش From File گزینه PDF را بزنید و فایل مورد نظر خود را وارد کنید و صبر کنید تا پردازش تمام شود و صفحه Navigator باز شود و گزینهها نمایش داده شود.
2- همانطور که در تصویر زیر میبینید تمامی جداول گزارش که توسط اکسل شناسایی شده در فهرست زیر مشخص هست و میتوانید صفحهای که مایل هستید را انتخاب کنید یا با فعال کردن گزینه Select Multiple Items در سایدبار بهصورت همزمان چند گزینه را انتخاب کنید. پس از اتمام کار با فشار دادن گزینه Load دادههای به شیت اکسل شما وارد میشود. این ابزار از Power Query کمک میگیرد و با فشار دادن Transform Data ابتدا به صفحه power query وارد میشوید و (اگر تغییراتی دارید/ندارید اعمال کنید ) و از آنجا دوباره گزینه انتقال به شیت را میتوانید بزنید.
فضای کاری آشنا و امکان استخراج و ویرایش همزمان دادهها در اکسل میتواند گزینهی قابل قبولی برای بسیاری از کاربران باشد و تجربه کار با آن در متون فارسی برای من لذتبخش بوده و دقت بسیار بالایی در استخراج داشته و نیازمند کمترین زمان برای ویرایش خروجیها را داشته است.
Adobe Acrobat Pro
نرمافزار آشنا و رایگان Acrobat reader که تا مدتها PDFخوان پیشفرض بسیاری بود یک برادر پولی داره که جز نمایش، امکانهای زیادی مثل ویرایش PDF هم در اختیار کاربر میگذارد و در نسخههای جدید خروجیهای نسبتاً قابل قبولی از تبدیل فایلهای فارسی نیاز داشته است.
راهنمای استفاده از Adobe Acrobat Pro
1- فایل PDF مورد نظر خود را با آن باز کنید و جدولی که میخواهید از آن خروجی بگیرید را با کمک ماوس انتخاب کنید و روی آن راست کلیک کنید. در منوی باز شده دو انتخاب دارید؛
Copy with Formating: بخشی که مد نظرتان هست را با حفظ چارچوبهای آن کپی میکند و میتوانید آن را در فضایی مثل ورد یا اکسل بهصورت مستقیم کپی کنید. در تجربه من با آن، چسباندن (Past) کردن در ورد کیفیت قابل قبولی دارد اما در انتقال مستقیم به اکسل حروف فارسی در هم ریخته میشوند. (انتقال به ورد و سپس کپی مجدد و انتقال به اکسل، قابل قبول بود)
Export selection as: با انتخاب این گزینه بخش انتخابی بهصورت مستقیم در قالب خروجیهایی که در تصویر زیر میبینید تحویل داده میشود و با اغماض کیفیت قابل قبولی داشت و میتوانید در تصویر زیرین آن را ببینید.
این نرمافزار از سویی امکان استخراج اتوماتیک چند جدول را نمیدهد و از سوی دیگر به دلیل مشکلاتی که با متنهای فارسی دارد برای کارهای بزرگ مناسب نیست.
هوش مصنوعی
امروزه با پیشرفتهای هوش مصنوعی که گرهای نیست که نشه باهاش باز نکرد و باتهای هوش مصنوعی مثل ChatGPT، کلاود یا Gemini گوگل خیلی راحت میتوانند بهتون کمک کنند.
برای استفاده من با دو راه به نتیجه رسیدهم و شما میتوانید راههای دیگری نیز تست کنید؛
1- ارسال تصویر جدول: تصویر جداول را با اسکرین گرفتن از فایل یا آپلود فایل ذخیره در بات و نوشتن پرامپت سادهی « اطلاعات این جدول را بهصورت خروجی مارکداون برام بفرست» به نتیجه زیر رسیدم. اگر مارکداون را نمیشناسید، پیشنهاد میکنم در مورد آن گوگل کنید یا از خود هوش مصنوعی بپرسید.
2- آپلود کل فایل: هوش مصنوعیها زمانی که فایل pdf یا اسناد دیگر را دریافت میکنند، نمیتوانند آن را بهصورت یک فایل یکپارچه بفهمند. توضیح ساده این است که فایل را تکه تکه میکنند و مثلا کلمه به کلمه آن را میخوانند سپس در شبکهای مرتبط با هم آن را فهم میکنند. در این فرایند زمانی که کاربر درخواست ارسال صفحهی خاصی کند با خطایی روبرو میشوید که هوش مصنوعی از ناتوانی در فهم شماره صفحه میگوید و درخواست ارسال موضوع خاص از کاربر میکند:
زمانی که عنوان جدول مورد نظر را ارسال کنید اما اصل جدول را با توضیحات لازم ارسال میکند. دقت کنید که دلیل ارسال جدول انگلیسی این هست که من در شروع صحبت با آن انگلیسی صحبت کردهام و پس از ارسال جدول انگلیسی برای اطمینان از صحت دادهها درخواست ارسال جدول بهصورت فارسی کردم و به درستی جواب را برگرداند. در نهایت خروجی جدول را میتوانید به اکسل منتقل کنید.
علاوه بر باتهایی، پلتفرمهایی کمک گرفته از هوش مصنوعی هست که اختصاصاً برای چنین کارهایی آموزش دیدهاند بهصورت پولی یا رایگان محدود فعالیت میکنند و میتوانید آنها را با جستوجویی کوتاه در اینترنت بیابید.
جمعبندی
در این یادداشت، چهار ابزار محبوب و کارآمد برای استخراج جداول از فایلهای PDF بدون نیاز به برنامهنویسی معرفی شد : Tabula، Microsoft Excel، Adobe Acrobat Pro و ابزارهای مبتنی بر هوش مصنوعی که هر یک از این ابزارها با توجه به نیازهای مختلف کاربران، از افراد مبتدی تا حرفهای، راهحلهای ساده و قابل اطمینانی ارائه میدهند.
در کنار این ابزارها، ابزارهای دیگری نیز در بازار موجود هستند که ممکن است بسته به نیاز کاربران مفید واقع شوند. برخی ابزارهای آنلاین و نرمافزارهای دیگر نیز قابلیت استخراج دادهها از PDF را دارند که میتوانند در شرایط خاص، جایگزینهای مناسبی باشند و اگر تجربههای دیگری دارید میتوانید آن را به اشتراک بگذارید تا به این فهرست اضافه شوند.
در آینده این یادداشت بهروزرسانی خواهد شد تا ابزارهای جدیدتر و کاربردیتر را نیز معرفی کند. همچنین، یادداشتهای دیگری در زمینههای مرتبط مانند استخراج جداول از سایتهای اینترنتی و استخراج دادهها از نمودارها و گرافها منتشر خواهد شد که به شما کمک میکند تا دادههای موردنیاز خود را بهراحتی از منابع مختلف دریافت کنید.
برای دریافت اطلاعات در مورد انتشار یادداشتهای جدید و بهروزرسانیهای این مقاله، ما را در شبکههای اجتماعی دنبال کنید.