اگر میخواهید یک کتاب موجز و مختصر درباره علوم داده بخوانید بهترین گزینه کتابچه با همین عنوان از سری کتابهای دانشهای ضروری انتشارات دانشگاه امآیتی است. مهمترین ویژگی این کتاب، پرواز با ارتفاع مناسب بر فراز موضوع در عینِ نگاه چندجانبه به آن است. جان دی کِلِهِر و برندن تیرنی در این کتاب (+)، نه آنقدر وارد ریزهکاریهای فنی علوم داده میشوند که خواننده در جزئیات غرق شود نه آنچنان دور و کلی به موضوع نگاه میکنند که خواندن کتابی خالی از لطف شود. آنها با زبانی ساده به ابعاد گوناگون علوم داده مانند چگونگی تاثیر تحلیل داده در ارتقای تصمیمگیری در کسبوکار، نقش مهم زیرساخت و مهندسی داده در گردآوری و همچنین معرفی مسائل کلاسیک در علوم داده و کاربرد آنها در فعالیتهای پژوهشی و کسبوکار میپردازند.
کلهر و تایرنی استادان علوم کامپیوتر در بخش فناوری دانشگاه دوبلین ایرلند هستند و تالیفات دیگری نیز درباره موضوعات مرتبط با علوم داده دارند و علاوه بر نویسندگی و کار آکادمیک تجربه کار با کسبوکارهای گوناگون را نیز داشتهاند و حواشی کار زیر عنوان علوم داده را نیز به خوبی میشناسند. این آشنایی در برخی قسمتهای کتاب به خوبی قابل مشاهده است. مثلا بخشی در کتاب وجود دارد به نام «افسانههایی در مورد علوم داده» که با رویکردی انتقادی نسبت به حواشی مربوط آن و با هدف افسانهزدایی نوشته شده است. در این بخش، در واقع کتاب روی محدودیتهای علوم داده انگشت میگذارد.
یکی از بزرگترین افسانههایی که کتاب به آن حمله میکند این باور است که علوم داده فرایندی خودکار است که کافیست دادههایمان را در اختیار آن قرار دهیم تا پاسخ مشکلات را خودبخود پیدا کند. سپس میدهد که اتفاقا علوم داده در تمامی مراحل نیازمند نیروی انسانی دانشآموخته و کاردان است. چه در مرحله طرح سوال، چه در مرحله طراحی فرایند و آمادهسازی داده، چه در مرحله انتخاب الگوریتمهای یادگیری ماشین و چه در مرحله تفسیر انتقادی نتایج و چه در مرحله برنامهریزی برای اقدام بر اساس یافتهها، در تمامی این مراحل نیروی انسانی خبره لازم است و بدون آن عدم تحقق اهداف پروژه علوم داده قطعی است. نویسندگان کتاب بر همین پایه استدلال میکنند که تقاضای کار در علوم داده به رشد خود ادامه خواهد داد.
کلهر نویسنده نخست کتاب دیگری در همین مجموعه درباره «یادگیری عمیق» دارد. یادگیری عمیق یکی از الگوریتمهای داغ در علوم داده است. در کتاب علوم داده نیز کلهر هم قسمتی را به معرفی آن اختصاص داده است. با تمام این احوال، با از حواشی مربوط به آن غافل نشده و در بخش افسانهزدایی کتاب «حل تمامی مسائل علوم داده با یادگیری عمیق» را هم به عنوان یکی دیگر از افسانههای علوم داده برشمرده است.
کتاب از پیدایش علوم داده و ارائه تاریخچهای جذاب از آن آغاز میکند، سپس به مفاهیم پایه میرسد، پس از آن اکوسیستمی برای علوم داده ترسیم میکند و ارتباط اجزای گوناگون آن با یکدیگر را قابل فهم میکند، سپس سراغ یادگیری ماشین میرود و فعالیتهای رایج در علوم داده را در چهار گروه مسائل پیشبینی، تحلیل قواعد همبستگی، خوشهبندی و کشف موارد غیرمتعارف دستهبندی و تشریح میکند، سپس حریم خصوصی و اخلاق علوم داده را مورد بحث قرار دهد و دست آخر کتاب را با ترسیم سناریوهای محتمل درباره آینده علوم داده به پایان میرساند.