کلان داده و یادگیری ماشین، مانع از وقوع بحران مالی جهانی نمیشوند
ده سال از بحران مالی جهانی گذشته است و حالا بازارهای بورس دوباره به دوران اوج خود برمیگردند و نوسانات قیمت جهانی به پایینترین سطح نزدیک میشوند. صنعت مالی مشتاقانه از کلان داده و الگوریتمهای محاسباتی استقبال میکند و پیروزیهای متوالی یادگیری ماشین، این جریان را تقویت میکند. اما کارشناسان تا کجا میتوانند به مدلهای کمی (Quantitative Models) یا نوآوریهایی اعتماد کنند که به گفتهی ویلیام دادلی، رئیس بانک فدرال رزرو نیویورک؛ «اعتماد بیشازحد به آنها، سیستم مالی را در معرض ریسک قرار میدهد.»
هشتاد سال پیش، جان مینارد کینز مفهوم عدم قطعیت تقلیل ناپذیر را معرفی کرد. او معتقد بود که برخلاف نظر برخی از اقتصاددانان، عدم تعادل کوتاهمدت خودبهخود اصلاح نمیشود و ممکن است در بلندمدت، به شرایط غیرقابلبازگشت منتهی شود. هر نقطهی عدم تعادل، احتمالات متعدد دیگری را مطرح میکند. امروزه ما با این ریسک مواجه هستیم که سرمایهگذاران، معامله گران و رگولاتورها، قادر به درک این موضوع نباشد که پیشرفتهای تکنولوژیکی، عدم قطعیت مالی را کاهش نمیدهند.
ما باید دو نکته را مدنظر داشته باشیم. اول اینکه موازی با پیشرفتهای اخیر در یادگیری ماشین و تجارت الگوریتمی و رشد انفجاری تکنیکهای مالی قبل از بحران، ناهنجاریهای زیادی نیز رشد کرده است. دوم، ما نمیتوانیم صرفاً با تکیهبر دادههای بیشتر و قدرت محاسبانی بالاتر، از تعادل و ثبات مطمئن شویم. تئوریهای آماری نشان میدهند که کلان داده لزوماً مانع از وقوع مشکلات بزرگ نمیشود.
درست مثل امروز، در دههی ۱۹۹۰ و اوایل قرن ۲۱ نیز صنعت مالی، به لحاظ «کمی» موردتوجه قرار گرفت و در بخش تئوری و متدولوژی، پیشرفت زیادی کرد. بازهم مانند امروز؛ مهندسی مالی برای جوانان موفقیت بزرگی محسوب میشد. دنیای کارآفرینی شاهد مدلسازی پیشرفته احتمالات و قدرت محاسباتی بیسابقهای بود و کارآفرینان عدم قطعیت مالی را تحت کنترل خود داشتند، یا لااقل اینطور فکر میکردند.
اما بحران مالی جهانی نشان داد که این طرز فکر، چیزی بهجز «وهم کوانتی یا کمی» نیست. توهمی که شاید جهان امروز هم در معرض تکرار آن قرار داشته باشد. بسیاری از فرضیههای مدلسازی، مانند همبستگی بین قیمت داراییها، ایرادات عمدهای دارند. بهعلاوه مشخص شده که کوانتها، مجموعهای از خروجیهای احتمالی را بهطور غلط تعریف کردهاند و بر اساس اشتباهات، احتمالات شرطی رویدادها را محاسبه نمودهاند. امری که باعث میشود جهان، با چیزی که آنها میشناسند، متفاوت باشد. آنها تصمیماتی را اتخاذ کردند که بعداً مشخص شد کاملاً مهمل است و تنها در صورت وقوع رویدادهای غیرمعمول صادق خواهد بود.
همانطور که آرتور دمپستر، متخصص علم آمار گفته بود، پدیدهای به نام «رویه گرایی» یا Proceduralism روبه گسترش بود: استفاده از تکنیکهای پیچیدهای که لازمهی استدلال کیفی و قضاوت ذهنی بود، به خروجیهای غیرمنطقی و نامعقول منتهی شد. بهعنوانمثال، بانکها غالباً از مدلهای مختلفی برای قیمتگذاری قراردادهای مختلف استفاده میکنند که گاهی باعث میشود یک محصول مشابه به دو قیمت مختلف به همان موسسه ارائه شود.
«نیروهای متخصص، پیشرفتهای تکنیکال سریع، افزایش سود»: این تصوری است که جوانان از دنیای مالیهی سنجشی امروزُ دارند. امروز رویهگرایی مالی، بهواسطهی موفقیت گسترده الگوریتمها و فشارهای رقابتی مرتبط با اتخاذ آنها، بیش از هر زمان دیگری شایع است و فشار نظارتی برای تصویب این مدلها باعث میشود که نتایج، تحت تأثیر اعتبارات غیرواقعی، در سطح گستردهتری اعمال شوند.
بله، با دادههای بزرگتر و قدرت محاسباتی بیشتر از ده سال پیش، اکنون میتوانیم مجموعههای بیشتری از نتایج احتمالی را بررسی کنیم. اما هنوز نمیدانیم که احتمالات شرطی محاسبهشدهی ما، تا چه میزان با احتمالات واقعی متفاوت است. ما هنوز نمیدانیم که کدام پیشفرضها، صادق نخواهند بود. در حقیقت هرچه الگوریتمها پیچیدهتر میشوند (مانند آنچه که در یادگیری عمیق شاهدیم)، سختتر میتوانیم شکافهای منطقی را شناسایی کنیم. درنتیجه، متوجه نمیشویم چه زمانی مدلها بهشدت ناکارآمد هستند.
یادگیری ماشین، با استفاده از دادهها و بازارهایی که پیش روی ما قرار دارند، بازههای زمانی کوتاهمدت را بسیار مؤثر پیشبینی میکند. اما همین یادگیری ماشین در حوزهی یادگیری استنتاجی که مستلزم استفاده از دادههای زیربنایی علمی و مکانیسم بازار است، کارایی زیادی ندارد. درک ما از بازار، هنوز ناقص است.
استفن بلیث، استاد آمار کاربردی دانشگاه هاروارد و همکارش شیائولی منگ، اخیراً در مقالهی «بهشتها و پارادوکسهای آماری در کلان داده» توضیح دادهاند که کلان داده، بهتنهایی کمکی به ما نمیکند. فرض کنید که میخواهیم در یک زمینهی خاص، آمار جمعیت زیادی از مردم را برآورد کنیم. بهعنوانمثال درصد رأیدهندگان به ترامپ در نوامبر سال ۲۰۱۶. موفقیت ما در این امر به سه مقیاس بستگی دارد: حجم دادهها (هرچه بیشتر، بهتر)، تنوع دادهها (اگر همهی رأیدهندگان به ترامپ رأی داده باشند، مسئله بسیار ساده است) و کیفیت دادهها. کیفیت دادهها به همبستگی دو عامل بستگی دارد: هدف رأیدهنده و اینکه آیا او جزئی از مجموعهی دادههای ما بوده یا خیر. برای مثال اگر دادههای جمعآوریشده، تعداد کمتری از رأیدهندگان به ترامپ را پوشش داده باشند، آنالیز ما دچار سوگیری است.
شیائولی منگ در مقاله فوق نشان میدهد که اهمیت کیفیت دادهها، بیشتر از کمیت دادهها است. بازهم فرض کنیم که نظرسنجی ما یک درصد از رأیدهندگان (معادل با ۲.۳ میلیون نفر) را پوشش داده باشد و صحت پاسخگویی رأیدهندگان به ترامپ، فقط ۰.۱ درصد کمتر از سایر رأیدهندگان باشد. در ین صورت مجموعهی کلان دادهی ما، درصد رأیدهندگان به ترامپ را بسیار کمتر از نرخ واقعی آنها برآورد میکند، در مقایسه با زمانی که نظرسنجی رابین یک نمونهی تصادفی ۴۵۰ نفره برگزار میکنیم که شرکتکنندگان پاسخهای دقیقی به سؤالات میدهند.
در حوزهی مدیریت مالی، نمیتوانیم این مسائل را نادیده بگیریم. اگر مجموعه دادههای ما، باوجود حجم زیاد، بهصورت مینیمال و سیستماتیک نمایندهی جمعیت واقعی نباشند، کلان داده کمکی به حل مشکلات بزرگ نمیکند. متخصصان و سازمانهایی که بیشتر از همه، به رویکرد رویهگرایانه، نظیر الگوریتمهای پیچیده و مجموعههای بزرگ داده، متکی هستند، در این جریان آسیبپذیرترند. چگونه میتوانیم مطمئن باشیم که دادههای امروز ما، نمایندهی دنیای فردا خواهند بود؟ بهعنوانمثال شاید ما هرگز ادعا نکنیم که قیمت خانه، ناگهان در تمام استانهای کشور کاهش مییابد. ولی درعینحال نمیدانیم که سایر فرضیات ضمنی، تا چه حد با واقعیت تطبیق دارند.
در شرایط فعلی، قضاوت موضوعی و مبتنی بر تجربه، نقش مهمی در تعدیل وابستگی بیشازحد به مدلهای کمی دارد. قضاوتی که حتی پیچیدهترین الگوریتمها را زیر سؤال میبرد و به تئوری عدم قطعیت پایبند است، تفاوت بین ثبات مالی و «آسیبهای وحشتناک» بحران مالی بعدی را اثبات میکند.