داده کاوی یا علوم داده و تاثیر آن بر صنایع مختلف
داده کاوی در سالهای اخیر رشد زیادی در دنیای فناوری داشته است. این علم در موارد متنوع صنعت فناوری از مرتب کردن نتایج جستجو در گوگل تا بهبود پیشنهادهای شغل و همکار در لینکدین و بهینهسازی فید شبکههای اجتماعی گسترش یافته است.
نکتهی قابل توجه این است که این علم ظرفیت ایجاد تغییرات در تمامی زمینهها را دارد. زمینههایی همچون خرید و فروش، ارتباطات، کشاورزی، پزشکی و سلامت، حملونقل و حتی مجازاتهای قانونی نیز ظرفیت استفاده از علوم داده را دارند. البته هنوز اصطلاحات و عناوینی همچون متخصص داده یا داده کاو، بهخوبی تشریح داده نشدهاند. به بیان دیگر این عبارتها برای کارهای متنوع مرتبط با داده بهکار میروند.
سوال اساسی این است که یک متخصص داده دقیقا چه کاری انجام میدهد؟ هوگو باون اندرسون نویسندهی مجلهی کسبوکار هاروارد و بنیانگذار پادکست DataFramed است. او در جریان ساخت پادکست خود با بیش از ۳۰ متخصص داده کاوی مصاحبه داشته است. این متخصصان در صنایع بسیار متنوعی فعالیت داشته و تحصیلات گوناگونی داشتهاند. او در این مصاحبهها به مسئلهی اصلی تخصص و وظایف روزانهی یک متخصص داده پرداخته است.
در واقع علوم داده فعالیتهای گوناگونی را در بر میگیرد. افراد حاضر در این مصاحبهها نیز این علم را از زوایای گوناگونی مورد بررسی قرار دادهاند. به بیان دیگر وظایف و کارهایی که آنها برای یک داده کاو تشریح کردهاند، بسیار متنوع بوده است. بهعنوان مثال متخصصان سرویسهای Booking و Etsy از ساختارهای تجربی برای بهبود محصولات خود استفاده میکنند؛ کارشناسان BuzzFeed از راهکاری هوشمند برای بهینهسازی تیتر مطالبشان بهره میبرند و در Airbnb از یادگیری ماشین برای بهبود تصمیمگیریهای سازمانی استفاده میشود.
با توجه به مثالهای بالا به این نتیجه میرسیم که روشهای داده کاوی و استفاده از کلان داده (بیگ دیتا) در صنایع مختلف، متنوع است. علاوه بر آن، در هر صنعت بسته به کسبوکار مورد نظر، روشهای متنوعی به کار گرفته میشود. اما صرفنظر از تمامی این تفاوتها، برخی نکات کلی را میتوان با بررسی فعالیت کلی متخصصان داده آموخت. در ادامهی این مطلب زومیت به این نکات میپردازیم.
وظیفه متخصص داده
با بررسی عملکرد متخصصان داده، حداقل میتوان به تعریفی کلی از شغل آنها در دنیای فناوری رسید. متخصصان داده در این صنعت ابتدا منابع گسترده و مشخص را برای دادهکاوی انتخاب میکنند. آنها از آزمایشهای آنلاین و روشهای دیگر برای گسترش این پایگاه داده و همچنین آنالایز آن استفاده میکنند. یادگیری ماشین مرحلهی پیشرفتهتری است که در پایان وارد شده و در نهایت به شناخت بهتر مشتری و کسبوکار، به صاحبان آن کمک میکند. در تعریف ساده، داده کاوی در فناوری بهمعنای توسعهی زیرساخت، آزمایش کردن، استفاده از یادگیری ماشین برای تصمیمگیری و تولید محصول بر اساس داده است.
گامهای مثبت علوم داده در صنایع دیگر
یکی از متخصصان مورد مصاحبه در این مطلب، متخصص دادهی شرکت Convoy بوده است. این شرکت یکی از بزرگترین فعالان صنعت حملونقل در قارهی آمریکای شمالی است. بن اسکرینکا بههمراه تیمش در دادهکاوی این شرکت، توانستهاند صنعت حملونقل جادهای آمریکا را متحول کنند. مثال دیگر، سندی گریفیث از شرکت Flatiron Health بوده که با استفاده از این علم، تحقیقات روی سرطان را در شرکت خود بهبود داده است.
حتی صنایع حملونقل نیز از علوم داده استفاده میکنند
از مثالهای موفق دیگر در صنایع به جز فناوری میتوان به شرکت Alluvium اشاره کرد. به گفتهی متخصص دادهی این شرکت یعنی درو کانوی آنها از یادگیری ماشین و هوش مصنوعی برای تبدیل جریان عظیم داده در صنعت خود، به دادههای قابل اجرا استفاده میکنند. مایک تمیر مثال دیگری است که اکنون بهعنوان مدیر بخش خودروهای خودران اوبر فعالیت میکند. او پیش از این در شرکت Takt به بررسی سیستم داده کاوی و تسهیل این علم در شرکتهای متنوع حاضر در لیست فورچن ۵۰۰ میپرداخته است.
نکتهی قابل توجه در میان افراد حاضر در این مصاحبهها، نگرانی آنها از تمرکز بیش از اندازهی رسانهها بر هوش مصنوعی و فرآیندهای یادگیری ماشینی و یادگیری عمیق است. به بیان دیگر آنها معتقدند اخبار و تیترهای رسانهای نگرانکننده در ارتباط با این موضوعات، اصلی داده کاوی و علوم داده را زیر سوال برده است.
قطعا متخصصان داده در کارهای خود از یادگیری عمیق و یادگیری ماشین استفاده میکنند اما کارهای دیگر همچون جمعآوری داده، مرتب کردن آن، گزارش گیری، تصویرسازی داده، استخراج آمار، ارائهی نتایج به افراد مرتبط و در نهایت قانع کردن تصمیمگیرندگان شرکت برای عملکرد طبق نتایج نیز در لیست فعالیتهای آنها قرار دارد.
تکامل مهارتهای مورد نیاز در داده کاوی
تصور عمومی بر این است که آشنایی با یادگیری عمیق، کلید موفقیت در فعالیتهای داده کاوی است. جاناتان نولیس یک متخصص داده و مشاور داده کاوی در سیاتل بوده که مشاورههای متعددی به شرکتهای لیست فورچن ۵۰۰ داده است. او در مورد اولویت مهارتهای مورد نیاز برای یک متخصص داده، توانایی ارائه و تبدیل کردن آن به اطلاعات قابل فهم برای مخاطبان را مهمتر از توانایی او در پیادهسازی مدلهای پیچیدهی یادگیری عمیق میداند. در واقع او معتقد است مهارتهای ارتباطی برای این متخصصان، اهمیت حیاتی دارد.
مهارت حیاتی برای یک متخصص داده، ارائهی نتایج آنالیز است
مورد قابل توجه دیگر در وضعیت کنونی مهارتها، تغییرات سریع آنها در گذر زمان است. بهعنوان مثال توسعههای سریعی در بخش ابزارهای اوپن سورس داده کاوی در حال رخ دادن است و بسیاری از فعالیتهای بیاهمیت داده کاوان را اتوماتیک میکند. بهتر است بدانید که حدود ۸۰ درصد از زمان باارزش داده کاوان به این نوع وظایف مانند پیدا کردن، پاکسازی و مرتب کردن داده اختصاص دارد و تنها ۲۰ درصد از زمان در وظیفهی اصلی یعنی آنالیز گذرانده میشود.
البته این نوع از فعالیتهای داده کاوان به طور حتم ادامه نخواهد یافت. پیشرفتهای سریعی در زمینهی یادگیری ماشین و یادگیری عمیق رخ داده و این ابزارها بهزودی بسیاری از آن زمان ۸۰ درصد را برای متخصصان داده صرفهجویی میکنند.
تمامی این تکاملهای گفته شده باعث میشود که مهارتهای مورد نیاز برای دادهکاوی تغییر کند. در آیندهی نزدیک دیگر توسعه و استفاده از زیرساختهای یادگیری عمیق اهمیت نخواهند داشت. بهجای این مهارتها، مواردی همچون توانایی یادگیری و ارتباطات قوی بهمنظور پاسخ دادن به سوالات مرتبط با حوزهی کسبوکار اهمیت پیدا میکند. توضیح دادن نتایج آنالیز به افراد غیرفنی مرتبط با کسبوکار نیز در این دستهبندی مهم قرار میگیرد. به بیان دیگر علاقهمندان به داده کاوی باید بیش از تکنیکها، روی سوالهای مهم در صنعت و نحوهی پاسخگویی به آنها سرمایهگذاری کنند. به یاد داشته باشید که روشهای فنی بهسرعت در حال تغییر هستند. آنچه که اهمیت دارد، تفکر حیاتی و مهارتهای اختاصی در صنعت مورد فعالیت است.
اهمیت تخصص در داده کاوی
بهخاطر جدید بودن علم داده کاوی، هنوز مسیرهای مشخص فعالان این حرفه برای ادامهی فعالیت شغلی تدوین نشده است. علاوه بر آن، پشتیبانی لازم از داده کاوان تازهکار برای ترسیم تقشهی راه شغلی صورت نمیگیرد. در این میان نمونههایی از دستهبندی و تدوین تخصص برای این افراد وجود دارد. امیلی رابینسون یک متخصص داده است که فعالان این حوزه را به دو نوع A و B تقسیم میکند. نوع A متخصصان آنالیز و تحلیل بوده و بهنوعی، همان متخصصان سنتی آمار هستند. نوع B، افرادی با مهارت ساخت مدلهای یادگیری ماشین هستند.
جاناتان نولیس، دستهبندی علم داده را در سه بخش انجام میدهد. دستهی اول، هوشمندی کسبوکاری است. این علم شامل استفاده از دادهی شرکت و ارائهی آن به افراد مرتبط است. این ارائه به انواع گوناگون اعم از مقاله، ایمیل یا دستورالعمل انجام میشود. دستهی دوم، علم تصمیمگیری است. متخصصان این دسته، دادهی شرکت را دریافت کرده و در تصمیمگیری بر اساس آن فعالیت میکنند. دستهی آخر به یادگیری ماشین مربوط است. این دسته، داده را دریافت کرده و از مدلهای علم داده و یادگیری ماشین برای تولید هرچه بهتر محصول استفاده میکند.
اگرچه در حال حاضر اکثر داده کاوان بهصورت عمومی کار کرده و همهی حوزههای بالا را پوشش میدهند، اما در بازار این متخصصان، به مرور شاهد ظهور تخصصهای منحصربهفرد و جداسازی شغلها هستیم. در این میان یادگیری ماشین مهارتی است که بیش از همه به سمت تخصص شدن پیش میرود.
اصول اخلاقی، چالش اصلی این زمینهی کاری
عدم قطعیت، یکی از موارد شایع در میان داده کاوان است. به بیان دیگر آنها هرچقدر هم که در تخصص خود خبره باشند، بهصورت قطعی از نتیجهی تحقیقات، بررسیها و تصمیمات مرتبط با آنها مطمئن نخواهند بود. اما چالش بزرگ دیگر این متخصصان، نامشخص بودن اصول اخلاقی و استانداردهایی برای روشهای فعالیت است. مورد دیگر، نبود دانشنامه یا دستورالعملی جامع برای داده کاوان است.
استانداردهای مشخص برای فعالیت و محصولسازی متخصصان داده وجود ندارد
از موارد بالا، نبود اصول اخلاقی و کاری و همچنینی استانداردهای فعالیت، مشکل اساسی همهی داده کاوان است.در دورانی که بسیاری از تعاملات انسانها با دنیای اطراف توسط الگوریتمهای توسعهیافته به دست متخصصان داده دیکته می شود، اصول اخلاقی در کجای این فرآیند قرار دارد. اوموجو میلر متخصصدادهی یادگیری ماشین در گیتهاب در این مورد میگوید:
ما باید فهم و آموزش لازم در مورد اصول اخلاقی را بهدست بیاوریم. به بیان دیگر باید قانونی مانند سوگند بقراط داشته باشیم. نیاز دیگر، مجوزهای فعالیت برای ما متخصصان است تا در صورتی که خطایی مرتکب شدیم، مشمول جریمه یا محرومیت از فعالیت باشیم. در واقع باید نشان دهیم که برخی فعالیتها مورد تایید همهی فعالان صنعت نیستند.
یکی از مشکلات شایع، عواقب خطرناک، جدی و ضداخلاقی است که بهخاطر استفاده از علوم داده ایجاد میشود. نمونهای از این مشکلات، سیستم تشخیص مجرمان آینده با نام COMPAS Recidivism Risk Score است که در کشور آمریکا اجرا شده و متاسفانه تعصب غیراخلاقی روی سیاهپوستان دارد.
اجماعی که در حال حاضر در این صنعت وجود دارد، نیاز به تدوین استانداردها در داخل خود صنعت را تایید میکند. یکی از روشها برای رسیدن به این استاندارد، ساخت مدلهایی است که توانایی توضیح روند فعالیت خود و تصمیمگیریهای جانبی را داشته باشند. مدلهای یادگیری عمیق در موارد بسیار زیاد، عملکردی عالی دارند اما غیر قابل تفسیر هستند. در این میان محققان، مهندسان و فعالان بیشماری در صنعت داده کاوی هستند که در پروژههایی مانند Lime، سعی در توضیح دادن روند فعالیت یادگیری عمیق دارند.
بههرحال انقلاب علم داده در صنایع و جوامع مختلف در حال رخ دادن است. این که علم داده تنها عنوانی جذاب برای شاغلان آن باشد، یا تخصصیتر شده یا به مجموعهای از مهارتهای پیشنیاز برای متخصصان دیگر تبدیل شود، هنوز مشخص نیست. هیلاری میسون در مورد آیندهی این عنوان شغلی میگوید:
شاید تا ۱۰ سال آینده شغلی به نام متخصص داده نداشته باشیم. همانطور که در گذشته نداشتیم. آینده مشخص نیست. شاید متخصص داده نیز به سرنوشت عنوان شغلی «وبمستر» دچار شود.