معرفی کتاب «کلان داده» نوشته برایان کلگ
بهطور عمومی با پیشرفت تکنولوژی و ایجاد ابزار تکنولوژیک جدید، ابتدا این پرسش پیش میآید که این تکنولوژی بهنفع ما خواهد بود یا به ضرر ما؟ بهبیانبهتر، منافع این تکنولوژی جدید بر مضراتش غلبه دارد یا خیر؟ کلانداده نیز از این قاعده مستثنا نیست. در سالهای اخیر و با شروع انقلاب صنعتی چهارم، تکنولوژیهای بسیار زیادی به دنیای ما وارد شده و خواهند شد؛ تکنولوژیهایی مانند هوش مصنوعی، اینترنت اشیاء، کلانداده، محاسبات ابری و... . بهموازات ورود این تکنولوژیها به دنیای ما، بحثهایی نیز درمورد حدود اخلاقیاجتماعی این تکنولوژیها در گرفته است و اینکه این تکنولوژیها تا کجا میتوانند به دنیای ما وارد شوند.
بهعنوان مثال، فیلم تحسین شده او (Her) به این موضوع میپردازد که ابزارهای الکترونیک مانند اینترنت، هوش مصنوعی و... چگونه انسانها را از یکدیگر دور و آنها را به اتمهایی نفسانی جدا از یکدیگر تبدیل کرده است. سریال جهان غرب (West World) نیز به این موضوع میپردازد که ترکیب هوش مصنوعی و کلانداده چه ابزار قدرتمندی دراختیار مالکان این تکنولوژی برای کنترل جهان ما قرار میدهد تا بتوانند به کُنه وجود ما پی ببرند.
کتاب کلانداده از جنس داستانهای آخرالزمانی نیست که تکنولوژی را یکسره بد و منفی بداند و از محسنات آن چشمپوشی کند؛ بلکه بهدنبال آن است که به مردم بفهماند درعینحال که میتوانند از محسنات کلانداده استفاده کنند تا زندگی راحتتری تجربه کنند، با آگاهی از مضرات کلانداده میتوانند از اثرهای منفی این تکنولوژی بر زیست اجتماعی خود جلوگیری کنند.
خلاصهی کتاب
کتاب حاضر از هفت فصل تشکیل شده است که در هر فصل به یک جنبه از این تکنولوژی میپردازد:
میدانیم شما چه میاندیشید
دانستن علایق و ترجیحات مردم میتواند به کسبوکارها کمک کند تا خدمات بسیار موفقی به جامعه ارائه دهند. یکی از نمونههای موفق این کار، سریال تحسینشدهی شبکه نتفلیکس، یعنی خانهی پوشالی است. تهیهکنندگان این سریال در سال ۲۰۱۱ با چند شبکه تماس گرفتند تا بودجهی تهیه برنامهی آزمایشی را از آنها بگیرند. در آن زمان، مدتها بود که سریالی سیاسی نتوانسته بود به موفقیت دست یابد. شبکههای تلویزیونی با چنین پیشزمینهای از سرمایهگذاری روی این سریال خودداری میکردند؛ اما نتفلیکس با داشتن دادههای انبوه مربوط به مشتریان خود میدانست چنین سریالی با اقبال مشتریان روبهرو خواهد بود؛ ازاینرو، بهجای تولید برنامهای آزمایش، پیشاپیش ۱۰۰ میلیون دلار برای تهیهی دو مجموعهی اولیه پرداخت که مجموعا ۲۶ قسمت میشد.
البته این تنها استفادهی نتفلیکس از کلانداده نبود؛ بلکه حین تولید سریال نیز از کلانداده برای جهتدهی به آن بهره میبردند؛ اما استفاده از کلانداده تماما ضامن موفقیت نیست، همچنانکه نتفلیکس هم در کارنامهی خود سریالها و فیلمهای ناموفق بسیار زیادی دارد.
اندازه مهم است
در این فصل، نویسنده بهسراغ تاریخچهی داده و کلانداده میرود. شاید بتوان گفت اجداد کلانداده امروزی همان سرشماریهایی باشد که پیشتر دولت انجام میداد. شاید برایتان عجیب باشد که بدانید در آن زمان هم ترس از کلانداده وجود داشته است. ترس عمده این بود که امکان دارد اطلاعات شهروندان بهدست دشمنان برسد و آنها از این اطلاعات علیه کشور استفاده کنند.
همچنین، نویسنده به محدودیتها و فریبهایی میپردازد که ممکن است کلانداده در آستین داشته باشد. بهعنوان مثال، نویسنده ادعا میکند هرچقدر هم ابزار کلاندادهای قدرتمندی دراختیار داشته باشیم، امکان ندارد بتوانیم وضعیت آبوهوا را بیش از دَه روز بهطوردقیق پیشبینی کنیم. بهعلاوه خطرهای ناشی از نتیجهگیریهای گمراهکننده را نیز باید در نظر گرفت. برای نمونه، اگر افزایش دَهدرجهای هوا در اوایل تابستان به فروش سهبرابری گوشت منجر شود، نمیتوان نتیجهگیری کرد که این افزایش دما باعث آن مقدار فروش شده است؛ چراکه ممکن است افزایش مشابه دما در اواخر تابستان یا هرزمان دیگری چنین تأثیری نداشته باشد. نویسنده تأکید میکند همواره باید مراقب استنتاجات خود دربارهی کلانداده باشیم و برای این وضعیت عبارت جیگو (GIGO) را اختراع کرده است.
جیگو مخفف عبارت (garbage in, garbage out) و به این معنی است: اگر آشغال وارد کنی، آشغال نیز خارج میشود. هرچه هم سیستم شما خوب باشد، اگر دادههایی که به آن میدهید آشغال باشد، چیزی بهجز اشغال نصیبتان نخواهد شد. البته اگر بدون سازوکاری که بتواند آشغالها را تشخیص دهد سیستم راهاندازی کنید، ممکن است سیستم به شما نتایجی ارائه دهد که درست هم باشد. البته این نتیجهی درست بازتابی از جهان واقع نیست؛ بلکه سیستم در دنیایی که خودش ساخته عمل کرده و تصادفا به شما جواب صحیح را ارائه داده است.
آنقدر خرید کنید تا از پا درآیید
یکی از عرصههایی که کلانداده آنها را تغییر داده، عرصهی خردهفروشی است. در اینجا نویسندهی داستان جالبی از تجربهی خرید دوربین عکاسی میآورد:
زمانی به عکاسی خیلی علاقه داشتم و مشتری دائمی مغازه دوربینفروشی محلی بودم که مرا بهخوبی میشناختند و میدانستند مراتبا از آنجا خرید میکنم. مدتی بود که پولم را جمع میکردم. تصمیم گرفتم دل به دریا بزنم و دوربینم را عوض کنم و دوربین دیجیتال بخریم؛ ازاینرو، پرسیدم با حدود ۴۰۰ پوند کدام دوربین دیجیتالیتان را میتوانم بخرم. پاسخ فروشندهی آشنا ابتدا تکاندهنده بود. گفت: «من با این پول به شما دوربین نمیفروشم.» میخواستم بپرسم مگر پول من چه عیبی دارد که ادامه داد:«یکی از بهترین سازندگان قیمت دوربینهایش را از ۶۵۰ پوند به ۴۰۰ پوند کاهش داده است؛ ولی هنوز محموله را نفرستادهاند. اگر چند روز دیگر بیایید، میتوانم با ۴۰۰ پوند دوربین خیلی بهتری به شما بدهم. واقعا توصیه نمیکنم الآن چیزی بخرید.»
چه چیزی باعث شد که فروشنده از سود آنی خود دست بکشد؟ پاسخ صریح اطلاعات است. وی اطلاعات بسیار زیادی از نویسنده و محصولات خودش داشت و توانست بهترین پیشنهاد را به نویسنده بدهد. کلانداده نیز در تلاش است به همین درجه از آگاهی دست یابد؛ اما چگونه میتواند؟ آیا کلانداده میتواند تشخیص دهد کدام خریدار، خریدار ثابت است و کدامیک نیست؟ آیا میتواند تشخیص دهد بهترین انتخاب برای خریدار کدام است؟ اینها سؤالاتی است که در این فصل بهدنبال یافتن جوابهایی برای آنها هستیم.
این فصل مملو از مثالها و داستانهای جذابی است که شاید برای اولینبار است آنها را میشنویم. بهعنوان مثال، اینکه چرا شرکتهای هواپیمایی بیشتر از ظرفیت خود بلیت صادر میکنند؟ یا آمازون چگونه متوجه میشود به چه چیزهایی علاقه دارید؟ کارتهای تخفیف و طرفداری جدید چگونه میخواهند نقش فروشندهی دوربینفروشی را برایتان بازی کنند و مثالهایی از این دست که این فصل را به یکی از فصول خواندنی کتاب تبدیل میکند.
اوقات خوش
کلانداده زندگی ما را نیز راحتتر کرده و کوهی از اطلاعات دراختیار ما قرار داده است. اطلاعاتی که در ویکیپدیا موجود است، از بزرگترین دایرةالمعارف جهان نیز بیشتر است؛ اما باید مواظب اخبار جعلی، خصوصا در زمینههای سیاسی نیز باشیم. بیشترین دستکاری در اطلاعات ویکیپدیا در زمان انتخابات رخ میدهد. این مشکلی است که پس از انتخابات سال ۲۰۱۶ آمریکا اهمیت بسیار بیشتری پیدا کرد.
استفادهی دیگر از کلانداده را میتوان در پروژهی عظیم گوگل یافت. گوگل میتواند بین ۴۷ تا ۴۹ میلیارد صفحه را پوشش دهد. همچنین، مهندسان گوگل دائم در تلاشاند تا الگوریتمهای پیچیدهتر و بهینهتری برای جستوجو پیدا کنند تا نتیجهی جستوجو دقیقا همانی باشد که کاربر نیاز دارد. افزونبراین، کلانداده میتواند به ماشین قابلیت حرفزدن بدهد. نرمافزارهایی مانند سیری یا گوگل اسیستنت برپایهی اطلاعات عظیمی که از سرتاسر اینترنت بهدست میآورند و با استفاده از هوش مصنوعی پیشرفتهی خود مدام در حال یادگیری هستند. آنها میتوانند یاد بگیرند پاسخهای خلاقانه به پرسشهای عجیب شما بدهند و تا مدتها شما را سرگرم کنند.
شاید هیچ کاربردی از کلانداده بهاندازهی رسانههای اجتماعی در زندگی روزمرهی ما نمود نداشته باشد. شبکههای اجتماعی دو وجه کاملا متضاد دارند. رسانههای اجتماعی همانطور که میتوانند ما را به خیل عظیمی از کاربران متصل کنند، میتوانند بر شکلگیری تفکر ما نیز تأثیر بگذارند. الگوریتمهایی که این شبکهها مبتنیبر آن به ما اطلاعات میدهند، کاملا ناشناخته هستند. بهعنوان مثال، نمیدانیم اینستاگرام بر چه مبنایی دوستان جدید پیشنهاد میدهد یا فیسبوک بر چه مبنایی به ما اطلاعات جدید ارائه میکند. اگرچه نمیتوان این شرکتها را به فریب متهم کرد، نکته اینجا است که بدون دانستن الگوریتمهای آنها نیز نمیتوان آنها را کاملا از این موضوع مبرا دانست.
حل مسئله
کسانی که از اخبار تکنولوژی باخبرند، احتمالا نام «بوزون هیگز» را شنیدهاند. این ذره را هیچکس ندیده و شناسایی نکرده است؛ بلکه کشف آن تنها رویداد کلاندادهای بود:
وقتی تصادم در آشکارسازهای عظیم برخورددهنده اتفاق میافتد، تشعشعات خیلی زیادی از ذرات ایجاد میشود که هرکدام از آنها بالقوه ممکن است بیشتر متلاشی شود و حدود ۶۰۰ میلیون رویداد یا ۲۵ گیگابایت در ثانیه برای ذخیرهسازی تولید کند.حتی سیستمهای سرن هم نمیتواند در هر ثانیه ۲۵ گیگابایت ذخیره کنند؛ ازاینرو برای دستچینکردن دادههایی که بالقوه جالب بهنظر میرسند، از الگوریتمهایی استفاده میشود که رویدادها را نخست از ۶۰۰ میلیون در ثانیه به ۱۰ هزار و بعد به ۱۰۰ یا ۲۰۰ رویداد در ثانیه کاهش میدهند. بعد دادهها در سراسر جهان پخش میشوند تا کامپیوترهای مختلف در فرایند غربال و تجزیهوتحلیل روی آنها کار کنند. برای اینکه نشان دهیم این اتفاق با چه سرعتی میافتد، یادآور میشویم شروع گردآوری دادهها سال ۲۰۱۰ بود؛ اما اطلاعیهی مزبور تا سال ۲۰۱۲ منتشر نشد.
همچنین، کلانداده مشکلات بسیار زیادی مانند مشکلات مربوط به بیمه، سلامت، آموزش و.. را حل کرده؛ اما درکنار آن، مشکلات دیگری نیز بهوجود آورده است. کلانداده به شرکتهای بیمه کمک میکند رانندگان پرخطر را شناسایی کنند؛ اما درمقابل باعث میشود افراد مسن و مبتلا به بیماری زمینهای مجبور باشند پول بیشتری برای بیمه پرداخت کنند.
درمورد سیستم آموزشی نیز همین اتفاق رخ میدهد. امروزه، در بسیاری از کشورهای پیشرفته معلمان باتوجهبه دادهها رتبهبندی میشوند؛ اما این دادهها میتوانند گمراهکننده باشند. ممکن است معلم خوب تنها به این دلیل که دانشآموزان مناسبی نداشته، بد ارزیابی شود یا معلم بد بهدلیل دانشآموزان باهوشش خوب ارزیابی شود. در یک کلام، هنگام استفاده از کلانداده در زمینههای اجتماعی باید مواظب بود که ما با انسان طرف هستیم نه دادههای صرف.
کلانداده «برادر بزرگ»
کمی هم از جنبههای منفی کلانداده بشنوید. چه حسی دارید اگر حس کنید ۲۴ ساعته زیرنظر هستید. دستیارهای صوتی مانند سیری یا اکو با فرمان صوتی شروع به کار میکنند. نکتهی مهم اینجا است که بهنظر میرسد این نرمافزارها برای دریافت آن دستور صوتی باید تماموقت همه مکالمات شما را شنود کنند. البته شنود اطلاعات فقط مختص دستیارهای صوتی نیست؛ بلکه وبسایتهایی که کوکیهای شما را ذخیره و برای پیشبینی علایق شما از آن استفاده میکنند، در حال سوءاستفاده از اطلاعات شما هستند.
مشکل دیگر کلانداده تغییر فرهنگ کار است. چه میشود اگر فروشگاه زنجیرهای تصمیم بگیرد برمبنای نیاز هفتگی یا ماهیانهاش کارمند استخدام کند؛ دقیقا عین کاری که تاکسیهای اینترنتی میکنند. در این شیوهی جدید، فروشگاه از متقاضیان کار درخواست میکنند هر زمان به آنها نیاز بود به فروشگاه مراجعه کنند و به کار مشغول شوند. دراینصورت، متقاضی کار هرگز نمیتواند برنامهی ثابتی برای زندگی خود داشته باشد؛ درست همان اتفاقی که در مقیاسی بزرگتر برای تاکسیهای اینترنتی رخ میدهد: کسانی که مجبورند باتوجهبه پیک تقاضا به کار مشغول شوند و کارفرما مسئولیتی درقبال آنها ندارد.
علاوهبر تمام این مشکلات، میتوان به مشکلات ناشی از نظارت دولتی نیز اشاره کرد. کلانداده ابزار بسیار قدرتمند و مؤثری برای کاهش جرم و جنایت است؛ اما چه میشود اگر همین کلانداده باعث تبعیضات گسترده علیه اقلیتها (بهعنوان مثال سیاهپوستان) شود؟ از آن مهمتر چه میشود حکومتها از کلانداده برای جهتدهی اخبار و اطلاعات و کاهش آگاهی مردم استفاده کنند؟ اینها مشکلات بسیار بزرگی است که آنقدر به ما نزدیکاند که میتوان گفت حتی همین الان در حال تأثیرگذاری بر زندگی ما هستند.
خوب، بد و زشت
با تمام تفاسیری که گفته شد، میتوان کلانداده را از سه وجه نگاه کرد:
خوب
کلانداده بهمعنای واقعی کلمه ما را آزادتر میکند و اطلاعات مفیدی که دراختیار ما قرار میدهد، میتواند آگاهی ما را افزایش دهد. همچنین، کلانداده میتواند صنعت پزشکی را متحول و بیماریهای متعددی را درمان کند و سیستم آموزشی را کارآمدتر و سرگرمیها را لذتبخشتر کند.
بد
کلانداده میتواند به ابزاری برای نظارت ۲۴ ساعته علیه مردم تبدیل شود و باعث ایجاد تبعیضات گسترده علیه افراد خاصی باشد یا حتی به جهتدهی علایق و سلایق مردم منجر شود؛ اما میتوان از تمام این اتفاقات جلوگیری کرد، اگر سیستمهای کلانداده و الگوریتمهای مبتنیبر آن بهصورت شفاف دراختیار مردم قرار گیرد.
زشت
در دنیای کلانداده، شاید گاهی مرز میان شرکت معتبر و هکر مشخص نباشد؛ شرکتی که قصد دارد شما را سرکیسه کند و هکری که با سرقت اطلاعاتتان قصد دارد از شما اخاذی کند. ما بهدست خودمان کلانداده را با دستیارهای صوتی، گوشیهای هوشمند، ابزارهای مبتنیبر اینترنت اشیاء و... به خانهی خود راه دادهایم. اگرچه بسیار بعید است که ناگهان متوجه شوید تمام ابزارهای هوشمند در خانه شما ضدتان عمل میکنند، این حقیقت کتمانکردنی نیست که اطلاعات میتوانند بهنفع شرکت بیمهی شما یا ارگانهای دولتی در دادگاه علیه شما استفاده شوند. پس باید این خطرها را شناخت و برای مقابله با آن آماده بود.
معرفی کتاب و نویسندهی آن
کتاب حاضر با نام کامل (Big Data: How the Information Revolution Is Transforming Our Lives) اثر برایان کلگ است. کلگ یکی از نویسندگان معروف انگلیسی است که عمدهی تألیفاتش را دانش و علوم روز دربر میگیرد. تخصص کلگ توضیح مفاهیم پیچیدهای چون فیزیک کوانتوم، نور، بینهایت و... به زبان ساده و همهفهم است. همچنین، آثار وی در توضیح تغییرات اقلیمی کمک بسزایی به افراد فعال در این حوزه کرده است تا بتوانند این مفاهیم را به مردم عادی منتقل کنند. همچنین، سخنرانیهای وی درمورد بسیاری از علوم مختلف مدنظر قشر عظیمی از جامعه قرار گرفته است و او را به چهرهای شناختهشده در میان دوستداران علم تبدیل کرده است.