16 - 04 - 2025
آغاز شمارش معکوس تا AGI؟
«جهانصنعت»- در ماههای اخیر، مدیران عامل شرکتهای پیشروی حوزه هوش مصنوعی، اعتماد به نفس بیشتری نسبت به پیشرفت سریع این فناوری پیدا کردهاند. سم آلتمن از OpenAI از اینکه در نوامبر گفته بود «نرخ پیشرفت همچنان ادامه دارد»، به این نقطه رسید که در ژانویه اعلام کند «اکنون مطمئن هستیم که میدانیم چگونه AGI را بسازیم». داریو آمودی از Anthropic در ژانویه گفت: «از هر زمان دیگری مطمئنترم که به تواناییهای قدرتمند نزدیک هستیم… طی ۲ تا ۳ سال آینده.» دمیس هسابیس از گوگل دیپمایند گفت: از اینکه در پاییز گفته بود AGI ممکن است «تا ۱۰سال آینده» محقق شود، در ژانویه به این دیدگاه رسید که «احتمالا سه تا پنج سال دیگر باقی مانده است». چه چیزی این تغییر نگرش را توضیح میدهد؟ آیا این فقط هیاهو است یا واقعا ممکن است تا سال ۲۰۲۸ به هوش عمومی مصنوعی دست پیدا کنیم؟ در این گزارش، «بنجامین تاد» به بررسی عوامل پیشرفت اخیر میپردازد و برآورد میکند که این عوامل تا چه حد میتوانند ادامه پیدا کنند و توضیح میدهد چرا به احتمال زیاد این روند حداقل چهار سال دیگر ادامه خواهد داشت.
به طور خاص، در حالی که در سال ۲۰۲۴ پیشرفت در چتباتهای مدلهای زبانی بزرگ (LLM) به نظر میرسید کند شده باشد، یک رویکرد جدید شروع به اثربخشی کرد؛ آموزش مدلها برای استدلال از طریق یادگیری تقویتی. تنها در یک سال، این روش باعث شد که مدلها از دکترهای انسانی در پاسخ دادن به سوالات سخت علمی و منطقی پیشی بگیرند و در انجام وظایف برنامهنویسی یکساعته به سطح کارشناسی برسند. نمیدانیم هوش مصنوعی تا چه حد میتواند قدرتمند شود اما با برونیابی نرخ پیشرفتهای اخیر میتوان پیشبینی کرد که تا سال ۲۰۲۸ ممکن است به مدلهایی برسیم که دارای توانایی استدلال فراتر از انسان، دانش کارشناسی در تمام حوزهها و توانایی انجام پروژههای چند هفتهای بهصورت خودکار هستند و احتمالا این روند همچنان ادامه خواهد یافت.
دیگر تنها «چتبات»ها نیستند بلکه این مدلهای «عاملمحور» نیز ممکن است بهزودی با بسیاری از تعاریف موجود از هوش عمومی مصنوعی (AGI) همخوانی داشته باشند، یعنی سیستمهای هوش مصنوعی که در بیشتر کارهای دانشی، عملکردی در سطح انسان دارند. این یعنی با وجود اینکه احتمالا مدیران شرکتها بیش از حد خوشبین هستند، شواهد کافی وجود دارد که دیدگاهشان را باید بسیار جدی گرفت. در نهایت، اینکه خط تفکیک AGI را کجا بکشیم، امری نسبتا دلبخواهی است. چیزی که اهمیت دارد این است که این مدلها میتوانند با باز کردن راه برای تعداد بسیار بیشتری از «کارگران هوش مصنوعی» با توانمندیهای بالا باعث تسریع در خود پژوهشهای مربوط به هوش مصنوعی شوند. به نوبه خود، اتوماسیون کافی میتواند موجب رشد انفجاری و فشرده شدن ۱۰۰سال پیشرفت علمی در ۱۰سال شود؛ تحولی که جامعه برای آن آماده نیست. گرچه ممکن است این ایده عجیب یا دور از ذهن به نظر برسد اما در محدودهای از امکانپذیری قرار دارد که بسیاری از کارشناسان آن را محتمل میدانند. این گزارش قصد دارد مقدمهای برای درک چرایی این موضوع فراهم کند و همچنین بهترین استدلالهایی را که در مخالفت با این دیدگاه وجود دارد، بررسی کند. نویسنده از سال ۲۰۱۴ درباره AGI مینویسد. در آن زمان، تحقق AGI طی پنج سال آینده بسیار بعید به نظر میرسید اما امروز شرایط به طرز چشمگیری تغییر کرده است. اکنون میتوانیم خطوط کلی اینکه چطور این تحول ممکن است رخ دهد و چه کسانی آن را خواهند ساخت، ببینیم. در واقع پنج سال آینده به شکل غیرمعمولی مهم به نظر میرسد. موتورهای اصلی پیشرفت هوش مصنوعی- یعنی سرمایهگذاری در توان محاسباتی و پژوهشهای الگوریتمی- نمیتوانند با نرخ کنونی تا بعد از سال ۲۰۳۰ ادامه یابند. این یعنی یا بهزودی به سیستمهایی میرسیم که میتوانند باعث شتابگیری در پیشرفتها شوند یا پیشرفتها به احتمال زیاد بهطور چشمگیری کند خواهند شد. در هر دو صورت، پنج سال آینده زمانی است که همه چیز مشخص خواهد شد. بیایید ببینیم چرا.
چهار عامل کلیدی در حال پیشبرد پیشرفت هوش مصنوعی هستند: بزرگتر شدن مدلهای پایه، آموزش مدلها برای استدلال، افزایش زمان «تفکر» مدلها و ساخت چارچوبهای عاملمحور (agent scaffolding) برای انجام وظایف چندمرحلهای. این عوامل به کمک دو محرک اساسی ممکن شدهاند: افزایش توان محاسباتی برای اجرای مدلها و آموزش آنها و رشد سرمایه انسانی در حوزه پژوهشهای الگوریتمی.
همه این محرکها احتمالا تا سال ۲۰۲۸ و شاید حتی تا ۲۰۳۲ ادامه خواهند داشت. این یعنی باید انتظار پیشرفتهای عمدهتری در عملکرد هوش مصنوعی داشته باشیم. هنوز نمیدانیم این پیشرفتها چقدر بزرگ خواهند بود اما اگر روندهای اخیر را ادامه دهیم، به سیستمهایی خواهیم رسید که در کدنویسی و استدلال علمی عملکردی فراتر از انسان دارند و میتوانند بهطور خودمختار پروژههایی چند هفتهای را تکمیل کنند. چه آنها راAGI بنامیم یا نه، این سیستمها ممکن است برای شتابدهی به پژوهشهای هوش مصنوعی، رباتیک، صنعت فناوری و تحقیقات علمی کافی باشند که میتواند منجر به تاثیراتی تحولآفرین شود. از سوی دیگر، ممکن است هوش مصنوعی نتواند بر چالشهای مربوط به کارهایی با زمینه زیاد، تعریفنشده و افق زمانی بلند غلبه کند و همچنان صرفا به عنوان یک ابزار باقی بماند (هرچند بسیار بهتر از امروز). افزایش عملکرد هوش مصنوعی نیازمند رشد نمایی در سرمایهگذاری و نیروی پژوهشی است. با نرخ کنونی، احتمالا حدود سال ۲۰۳۰ به گلوگاههایی خواهیم رسید. بهطور ساده، این یعنی احتمال زیادی وجود دارد که یا تا حدود سال ۲۰۳۰ به AGI برسیم یا روند پیشرفتها بهشدت کند شود. البته سناریوهای میانی نیز ممکن هستند اما به نظر میرسد پنج سال آینده بهطور ویژهای حیاتی باشد.
عصر یادگیری عمیق
در سال ۲۰۲۲، «یان لیکان»، دانشمند ارشد
هوش مصنوعی در شرکت متا و برنده جایزه تورینگ، گفته بود:«من یک شیء را برمیدارم، آن را روی میز میگذارم و میز را هل میدهم. برای شما کاملا بدیهی است که شیء هم همراه میز حرکت میکند… هیچ متنی در دنیا وجود ندارد- به باور من- که این موضوع را به خوبی توضیح دهد. حتی اگر قویترین ماشین ممکن را آموزش دهید… مثل«GPT-5000»، هرگز نمیتواند این موضوع را یاد بگیرد.» البته اگر همین سوال را به GPT-4 بدهید، مشخص است که نمیداند چگونه به آن پاسخ دهد. این نقلقول در واقع یکی از نقدهای مهم به مدلهای زبانی بزرگ مانند (GPT) را نشان میدهد: آنها فاقد «درک فیزیکی» یا «شناخت شهودی از جهان واقعی» هستند، چیزی که انسانها بدون آموزش خاصی از دوران کودکی درک میکنند و این تنها نمونهای نیست که در آن کارشناسان غافلگیر شدهاند. پیش از سال ۲۰۱۱، هوش مصنوعی بهطور گستردهای «مرده» تلقی میشد اما این وضعیت کاملا تغییر کرد، زمانی که بینشهای مفهومی دهههای ۱۹۷۰ و ۱۹۸۰ با مقادیر عظیم داده و توان محاسباتی ترکیب شدند و پارادایم یادگیری عمیق (Deep Learning) را به وجود آوردند. از آن زمان تاکنون، بارها دیدهایم که سیستمهای هوش مصنوعی طی تنها چند سال از «کاملا ناتوان» به عملکردی فراتر از انسان در بسیاری از وظایف رسیدهاند. برای مثال در سال۲۰۲۲، اگر از Midjourney میخواستید تصویری از «یک سمور روی هواپیما در حال استفاده از وایفای» ترسیم کند، نتیجه چنین بود:
این مثال نشاندهنده سرعت فوقالعاده رشد مدلهای مولد (مانند Midjourney و DALL·E) است؛ مدلهایی که در ابتدا تصاویر خندهدار یا بیربط میساختند اما تنها طی یک سال توانستند به سطحی از دقت، زیباییشناسی و منطق بصری برسند که طراحان حرفهای را شگفتزده کردند. در سال ۲۰۱۹، «GPT-2» به سختی میتوانست برای چند پاراگراف روی موضوع بماند و همین در آن زمان پیشرفتی شگفتانگیز به شمار میرفت. منتقدانی مثل «یان لیکان» بهسرعت این نکته را مطرح کردند که «GPT-2» توانایی استدلال، درک عقل سلیم یا شناخت دنیای فیزیکی را ندارد و بهطور کلی فاقد «فهم» است اما بسیاری از این محدودیتها، تنها ظرف چند سال برطرف شدند. بارها و بارها نشان داده شده که شرط بستن علیه یادگیری عمیق تصمیمی خطرناک است. امروزه حتی خود LeCun هم گفته که انتظار دارد AGI در «چند سال آینده» به دست بیاید ولی محدودیتهای سیستمهای فعلی، موضوع اصلی نیستند. سوال جالبتر این است که ماجرا به کجا دارد میرود؟ چه چیزی جهش از «GPT-2» به «GPT-4»را توضیح میدهد؟ آیا شاهد جهش دیگری خواهیم بود؟ چه چیزی در راه است؟ در بالاترین سطح، پیشرفت هوش مصنوعی توسط دو محرک اصلی هدایت شده: توان محاسباتی بیشتر و الگوریتمهای بهتر. هر دوی اینها با سرعت بالا در حال بهبودند. بهطور خاصتر، میتوانیم پیشرفتهای اخیر را به چهار عامل کلیدی تقسیم کنیم: مقیاسبندی آموزش اولیه (pretraining) برای ساخت مدل پایه با هوش ابتدایی، استفاده از یادگیری تقویتی (RL) برای آموزش استدلال به مدل پایه، افزایش محاسبات در زمان اجرا (test-time compute) تا مدل زمان بیشتری برای «فکر کردن» روی هر پرسش داشته باشد و ساخت چارچوبهای عاملمحور (agent scaffolding)برای انجام وظایف پیچیده و چندمرحلهای.
در بخش دوم گزارش، از این اطلاعات برای پیشبینی آینده هوش مصنوعی استفاده میکنیم و در نهایت توضیح میدهیم که چرا پنج سال آینده بهطور ویژهای حیاتی هستند.
مقیاسبندی آموزش اولیه برای ساخت مدلهای پایه با هوش ابتدایی
بسیاری از مردم تصور میکنند که پیشرفت در هوش مصنوعی نیازمند کشفهای بزرگ نظری بوده اما واقعیت این است که بخش زیادی از آن، بیشتر شبیه مهندسی است. کافی است همان روشهای قبلی را در مقیاس بسیار بزرگتری اجرا کنید و مدلها بهتر میشوند. در جهش از«GPT-2»به «GPT-4»، عامل اصلی پیشرفت، فقط اعمال قدرت محاسباتی بسیار بیشتر روی همان تکنیکها بود، بهخصوص در مرحلهای به نام پیشآموزش. مدلهای مدرن هوش مصنوعی با استفاده از شبکههای عصبی مصنوعی ساخته میشوند که شامل میلیاردها پارامتر متصل به هم هستند و در لایههایی سازمان یافتهاند. در مرحله پیشآموزش (که نام گمراهکنندهای دارد، چون واقعا نوع اصلی آموزش است)، فرآیند به این شکل است: داده (مثلا تصویر یک گربه) به مدل داده میشود، پارامترهای مدل این داده را به خروجیای پیشبینیشده تبدیل میکنند (مثلا: «این یک گربه است»)، دقت خروجی با دادههای مرجع مقایسه میشود، پارامترهای مدل به نحوی تنظیم میشوند که دقت افزایش یابد و در نهایت این فرآیند بارها و بارها، با تریلیونها نمونه داده تکرار میشود. این روش برای آموزش انواع مختلفی از مدلهای هوش مصنوعی استفاده شده اما بیشترین کاربردش در پیشبینی زبان بوده است. دادههای آن متون اینترنت هستند و LLMها (مدلهای زبانی بزرگ) برای پیشبینی واژههای گمشده در متن آموزش میبینند.
افزایش توان محاسباتی برای آموزش (training compute) یعنی:
میتوان از پارامترهای بیشتر استفاده کرد → مدلها الگوهای پیچیدهتر و انتزاعیتری یاد میگیرند
میتوان از دادههای بیشتری استفاده کرد → پوشش مدل از جهان گستردهتر میشود
از زمان شروع عصر یادگیری عمیق، تعداد محاسبات مورد استفاده برای آموزش مدلهای AI با نرخ حیرتانگیزی افزایش یافته؛ بیش از چهار برابر در سال. این پیشرفتها در نتیجه صرف پول بیشتر و استفاده از تراشههای کارآمدتر حاصل شده است. به طور تاریخی، هر بار که میزان محاسبات مورد استفاده در آموزش (training compute) حدود ۱۰برابر افزایش یافته، بهطور پیوسته شاهد افزایش عملکرد مدلها در طیف گستردهای از وظایف و بنچمارکها بودهایم. به عنوان مثال، با رشد هزار برابری توان محاسباتی برای آموزش، مدلهای هوش مصنوعی به تدریج در پاسخ به انواع مختلف پرسشها بهتر شدهاند؛ از استدلال مبتنی بر عقل سلیم گرفته تا درک موقعیتهای اجتماعی و فیزیک. این موضوع در بنچمارکی به نام BIG-Bench Hard به خوبی نشان داده شده که شامل مجموعهای از سوالات متنوع است و بهطور خاص برای به چالش کشیدن مدلهای زبانی بزرگ (LLM)ها طراحی شدهاند.
بهطور مشابه، شرکت OpenAI مدلی برای کدنویسی ایجاد کرد که میتوانست مسائل ساده را حل کند و سپس از 100000برابر توان محاسباتی بیشتر برای آموزش نسخه بهبودیافته آن استفاده کرد. با افزایش توان محاسباتی، مدل توانست به سوالات به مراتب دشوارتری به درستی پاسخ دهد. این مسائل آزمایشی در دادههای آموزشی اولیه وجود نداشتند، بنابراین این موفقیت صرفا نتیجه جستوجوی بهتر در میان مسائل حفظ شده نبود. این رابطه میان توان محاسباتی آموزش و عملکرد مدل، «قانون مقیاسپذیری» نام دارد. مقالاتی در مورد این قوانین تا سال ۲۰۲۰ منتشر شده بود. برای کسانی که این حوزه از تحقیقات را دنبال میکردند، عرضه«GPT-4» تعجبآور نبود بلکه ادامه روندی قابل پیشبینی به شمار میرفت.
کارایی الگوریتمی (Algorithmic Efficiency)
در کنار افزایش توان محاسباتی برای آموزش، پژوهشگران راههای بسیار کارآمدتری برای استفاده از آن پیدا کردهاند. در واقع، هر دو سال یک بار، میزان محاسبات مورد نیاز برای رسیدن به یک سطح مشخص از عملکرد در طیف گستردهای از مدلها، بهطور تقریبی 10برابر کاهش یافته است، یعنی اگر قبلا برای رسیدن به یک سطح خاص از هوشمندی به ۱۰۰۰واحد محاسبه نیاز بود، حالا همان نتیجه با تنها ۱۰۰واحد محاسبه به دست میاد و این روند همچنان ادامه دارد.
این پیشرفتها معمولا باعث میشود که مدلها ارزانتر هم اجرا شوند. مدل «DeepSeek-V3» بهعنوان یک پیشرفت انقلابی در کارایی معرفی شد، اما در واقع آن نیز تقریبا در راستای روند موجود قرار داشت، دو سال پس از انتشار «GPT-4» عرضه شد و حدودا ۱۰برابر کارآمدتر بود. کارایی الگوریتمی به این معنی است که نهتنها هر سال چهار برابر بیشتر محاسبات برای آموزش استفاده میشود، بلکه این محاسبات سه برابر بیشتر اثر دارند. این دو با هم ترکیب میشوند تا یک افزایش ۱۲برابری در محاسبات موثر در هر سال تولید کنند. این یعنی تراشههایی که برای آموزش«GPT-4» در سه ماه استفاده شدند، میتوانستند برای آموزش یک مدل با عملکرد «GPT-2» حدودا 300000بار استفاده شوند. این افزایش در محاسبات موثر، ما را از یک مدل که به سختی میتوانست پاراگرافهایی را کنار هم بچیند به «GPT-4» رساند که توانایی انجام کارهایی مثل شکست دادن اکثر دانشآموزان دبیرستانی در امتحانات ورودی دانشگاه، مکالمه به زبان طبیعی- در گذشته دور، این یکی از نشانههای واقعی هوش محسوب میشد، مشابه آزمایش تورینگ، حل کردن Winograd schemas – آزمایشی برای استدلال مبتنی بر عقل سلیم که در دهه ۲۰۱۰ بهعنوان یک چالش برای درک واقعی در نظر گرفته میشد و هنرهایی که بیشتر مردم قادر به تمییز دادن آن از آثار تولیدشده توسط انسان نیستند.
تا کجا پیشرفت پیشآموزش (Pretraining) امکانپذیر است؟ اگر روندهای فعلی ادامه یابند، تا حدود سال ۲۰۲۸، شخصی مدلهایی با 300000برابر محاسبات موثر بیشتر از «GPT-4»آموزش خواهد داد. این همان میزان افزایش است که از«GPT-2» به«GPT-4»مشاهده کردیم، بنابراین اگر این میزان محاسبهشده صرف پیشآموزش شود، میتوانیم این مدل فرضی را «GPT-6»بنامیم. بعد از یک وقفه در سال ۲۰۲۴، مدلهای مشابه GPT-4.5 به نظر میرسد در روند پیشرفت قرار دارند و شرکتها در حال حاضر به مدلهایی با اندازه«GPT-5» نزدیک هستند که پیشبینی میشود در سال ۲۰۲۵ منتشر شوند. اما آیا این روند میتواند تا «GPT-6»ادامه یابد؟ مدیرعامل Anthropic، داریو آمودئی پیشبینی کرده که مدلهایی با اندازه «GPT-6» حدودا ۱۰میلیارد دلار هزینه برای آموزش خواهند داشت. این مقدار هنوز برای شرکتهایی مانند گوگل، مایکروسافت یا متا که سالانه ۵۰ تا ۱۰۰میلیارد دلار سود کسب میکنند، قابل تحمل است. در واقع این شرکتها در حال حاضر در حال ساخت مراکز دادهای به اندازه کافی بزرگ برای چنین دورهای آموزشی هستند و این پیش از اعلام پروژه Stargate با بودجه بیش از ۱۰۰میلیارد دلار بوده است. مدلهای هوش مصنوعی پیشرفته (Frontier AI) همچنین در حال حاضر بیش از ۱۰میلیارد دلار درآمدزایی دارند و درآمد آنها هر سال بیشتر از سه برابر میشود، بنابراین درآمد از هوش مصنوعی بهزودی کافی خواهد بود تا هزینههای آموزش یک مدل ۱۰میلیارد دلاری را پوشش دهد.
آموزش مدلها با استفاده از یادگیری تقویتی برای استدلال
افراد معمولا میگویند «چت جیپیتی فقط کلمه بعدی را پیشبینی میکند» اما این هیچگاه کاملا درست نبوده است. پیشبینی ساده کلمات از اینترنت معمولا خروجیهایی تولید میکند که اغلب عجیب و غریب هستند (همانطور که انتظار میرود، چون دادهها از اینترنت گرفته شدهاند). GPT فقط با اضافه کردن یادگیری تقویتی از بازخورد انسانی (RLHF) تبدیل به مدل مفید شد: خروجیهای مدل پایه به ارزیابان انسانی نشان داده میشود و از ارزیابها خواسته میشود که بگویند کدام خروجیها مفیدتر هستند. مدل به گونهای تنظیم میشود که خروجیهایی مشابه آنهایی که مفید بودند، تولید کند (یعنی تقویت). مدلی که تحت آموزش RLHF قرار گرفته، دیگر فقط پیشبینی کلمه بعدی نیست، بلکه بهطور خاص برای پیشبینی آنچه ارزیابهای انسانی آن را مفید میدانند، آموزش دیده است. میتوانید فکر کنید که LLM اولیه بهعنوان یک پایه برای ساختار مفهومی عمل میکند. RLHF برای هدایت آن ساختار به سمت یک نتیجه خاص و مفید ضروری است.
RLHF یک نوع آموزش پس از پیشآموزش است زیرا بعد از پیشآموزش انجام میشود (اگرچه هر دو نوع آموزش هستند). انواع دیگری از تقویتهای پس از آموزش وجود دارند، ازجمله مسائلی ساده مانند اجازه دادن به مدل برای دسترسی به یک ماشین حساب یا اینترنت. اما یک نوع بهویژه در حال حاضر حیاتی است: یادگیری تقویتی برای آموزش مدلها به استدلال. این ایده به این صورت است که به جای آموزش مدل برای انجام کارهایی که انسانها آنها را مفید میدانند، مدل به درستی برای حل مسائل آموزش داده میشود. اینجا فرآیند بهطور خلاصه آمده است: به مدل یک مشکل با جواب قابل تایید نشان داده میشود، مانند یک معمای ریاضی سپس از آن خواسته میشود تا یک زنجیره از استدلالها برای حل مساله تولید کند (زنجیره فکر). اگر جواب صحیح بود، مدل برای شبیهتر شدن به آن تنظیم شده (تقویت) و این روند تکرار میشود.
این فرآیند به LLM آموزش میدهد که زنجیرههای بلند استدلال (صحیح) را در مورد مسائل منطقی بسازد. قبل از سال ۲۰۲۳، این روش به نظر نمیرسید که کار کند. اگر هر گام از استدلال بیش از حد غیرقابل اعتماد باشد، زنجیرهها به سرعت اشتباه میکنند و اگر نتوانید به جواب نزدیک شوید، نمیتوانید هیچ تقویتی انجام دهید اما در سال ۲۰۲۴، زمانی که بسیاری میگفتند پیشرفت AI متوقف شده است، این پارادایم جدید شروع به موفقیت کرد. در نظر بگیرید که بنچمارک
GPQA- Diamond مجموعهای از سوالات علمی طراحی شده است که افراد با دکترا در این حوزه میتوانند به راحتی به آنها پاسخ دهند اما غیرمتخصصها حتی با دسترسی به گوگل برای ۳۰دقیقه نمیتوانند به آنها جواب دهند .
سوالاتی مانند این:
در سال ۲۰۲۳، «GPT-4» تنها اندکی بهتر از حدس تصادفی در این بنچمارک عمل کرد. این مدل میتوانست استدلالهای لازم برای مسائل علمی سطح دبیرستان را مدیریت کند اما نمیتوانست استدلالهای سطح دکترای را انجام دهد. با این حال، در اکتبر ۲۰۲۴، OpenAI مدل پایه 4اGPT- o را گرفت و از یادگیری تقویتی برای ایجاد o1 استفاده کرد. این مدل دقت ۷۰درصد را به دست آورد که آن را معادل با سطح دکترا در هر حوزه در پاسخ به این سوالات قرار میدهد. دیگر نمیتوان ادعا کرد که این مدلها صرفا در حال بازتولید دادههای آموزشی خود هستند، نه پاسخها و نه زنجیرههای استدلالی لازم برای تولید آنها در اینترنت وجود دارد. اکثر افراد روزانه به سوالات علمی سطح دکترا پاسخ نمیدهند، بنابراین پیشرفتهای اخیر را متوجه نشدهاند. آنها هنوز هم مدلهای زبان بزرگ (LLM) را به عنوان چتباتهای پایه در نظر میگیرند اما o1 تنها شروع کار بود. در آغاز یک پارادایم جدید، ممکن است پیشرفتها به ویژه سریع باشند. تنها سه ماه پس از o1، OpenAI نتایج o3 را منتشر کرد. این نسخه دوم است، به نام «o3» چون «o2» یک شرکت مخابراتی است. o3احتمالا همان o1 است اما با استفاده بیشتر از یادگیری تقویتی (و تغییر دیگری که به زودی توضیح خواهم داد). این مدل از سطح کارشناسان انسانی در بنچمارک GPQA پیشی گرفت:
یادگیری تقویتی باید بیشتر برای مسائلی مفید باشد که پاسخهای قابل تاییدی دارند، مانند علوم، ریاضیات و برنامهنویسی. o3 در تمام این حوزهها نسبت به مدل پایه خود عملکرد بسیار بهتری دارد. بیشتر بنچمارکهای سوالات ریاضی اکنون اشباع شدهاند. مدلهای پیشرفته تقریبا قادرند تمام سوالات را به درستی پاسخ دهند. در پاسخ به این مساله، Epoch AI بنچمارک Frontier Math را ایجاد کرد؛ بنچمارکی از مسائل ریاضی فوقالعاده سخت. ۲۵درصد آسانتر آنها مشابه مسائل سطح المپیاد هستند. ۲۵درصد سختترین مسائل، طبق گفته Terence Tao، برنده مدال فیلدز، «چالشبرانگیزترین» هستند و معمولا برای حل آنها به یک متخصص در آن شاخه از ریاضیات نیاز است. مدلهای قبلی، ازجمله GPT-o1، به سختی میتوانستند هیچ یک از این سوالات را حل کنند. در دسامبر ۲۰۲۴، OpenAI اعلام کرد که GPT-o3 قادر به حل ۲۵درصد از این سوالات است. این نتایج به طور کامل در رسانهها گزارش نشد. در روز اعلام نتایج o3، The Wall Street Journal این داستان را منتشر کرده بود:
این نکته حیاتی را نادیده میگیرد که«GPT-5»دیگر ضرورتی ندارد. یک پارادایم جدید شروع شده است که میتواند سریعتر از قبل پیشرفت کند. چقدر میتوان به مقیاسبندی مدلهای استدلالی ادامه داد؟ در ژانویه، DeepSeek بسیاری از نتایج o1 را بازتولید کرد. مقاله آنها نشان داد که حتی سادهترین نسخه از این فرآیند نیز کار میکند که نشان میدهد هنوز مقدار زیادی برای آزمایش وجود دارد. DeepSeek-R1 همچنین تمام زنجیره استدلال خود را برای کاربر نمایش میدهد که پیچیدگی و ویژگیهای شگفتانگیز آن را نشان میدهد: این مدل به جوابهای خود فکر میکند، زمانی که اشتباه باشد به عقب برمیگردد، چندین فرضیه را بررسی میکند، بینشهایی ارائه میدهد و موارد دیگر. تمام این رفتارها از یادگیری تقویتی ساده به وجود میآید. محقق OpenAI سباستین بوبک مشاهده کرده است: «هیچ تاکتیکی به مدل داده نشده است. همه چیز به صورت ظهور یافته است. همه چیز از طریق یادگیری تقویتی آموخته شده است. این دیوانهکننده است.» محاسبات مربوط به مرحله یادگیری تقویتی برای آموزش DeepSeek-R1 احتمالا فقط حدود یک میلیون دلار هزینه داشته است.
اگر این روند ادامه پیدا کند، OpenAI، Anthropic و Google اکنون میتوانند حدود یک میلیارد دلار برای همین فرآیند هزینه کنند که تقریبا 1000برابر افزایش محاسبات است. یکی از دلایل این امکان برای مقیاسگذاری زیاد این است که مدلها دادههای خودشان را تولید میکنند. این ممکن است به نظر دور از ذهن برسد و ایدهای که دادههای مصنوعی میتواند باعث «فروپاشی مدل» شود، بهطور گستردهای بحث شده است اما در این مورد هیچ چیزی دایرهای نیست. شما میتوانید از GPT-o1 بخواهید که 100000 مساله ریاضی حل کند، سپس فقط مواردی را که جواب صحیح داده است انتخاب کرده و از آنها برای آموزش مدل بعدی استفاده کنید. چون راهحلها به راحتی قابل تایید هستند، شما مثالهای بیشتری از استدلال صحیح تولید کردهاید. در واقع، این دادهها کیفیت بسیار بالاتری از آنچه که در اینترنت پیدا میکنید، دارند زیرا زنجیره کامل استدلال را شامل میشوند و ثابت شدهاند که درست هستند (چیزی که اینترنت بهطور معمول برای آن معروف نیست). این میتواند یک چرخه فزاینده ایجاد کند: مدل شما یکسری مشکلات را حل میکند، از راهحلها برای آموزش مدل بعدی استفاده میکنید، مدل بعدی میتواند مسائل سختتری را حل کند و این منجر به تولید راهحلهای بیشتری میشود و به همین ترتیب اگر مدلها بتوانند استدلالهای سطح دکترا را انجام دهند، مرحله بعدی استدلال سطح پژوهشگر خواهد بود و سپس تولید بینشهای نوآورانه. این احتمالا توضیحدهنده بیانیههای غیرمعمول خوشبینانه از رهبران شرکتهای AI است. تغییر نظر سم آلتمان دقیقا همزمان با انتشار o3 در دسامبر 2024 است. اگرچه این مهارتهای استدلالی در دامنههای قابل تایید بیشترین قدرت را دارند، این مهارتها احتمالا تا حدی به دیگر دامنهها نیز تعمیم مییابند. قبلا دیدهایم که o1 در استدلالهای حقوقی نیز بهبود یافته است. در دیگر حوزهها مانند استراتژی کسبوکار یا نوشتن، قضاوت موفقیت سختتر بوده، بنابراین روند کندتر است اما باید انتظار داشت که بهطور نسبی در این زمینهها نیز کار کند. اینکه این روند چقدر موثر خواهد بود، سوال حیاتی برای پیشرفت آینده است. این فرآیند به نام استفاده از «محاسبات زمان آزمایش» شناخته میشود؛ محاسباتی که هنگام اجرای مدل انجام میشود نه هنگام آموزش. اگر 4اGPT- o بتواند بهطور مفید برای حدود یک دقیقه فکر کند، به نظر میرسد که 1اGPT- o و DeepSeek-R1 میتوانند معادل یک ساعت فکر کنند. با قابل اعتمادتر شدن مدلهای استدلالی، آنها قادر خواهند بود برای مدتهای طولانیتری فکر کنند. در نرخهای فعلی، به زودی مدلهایی خواهیم داشت که میتوانند برای یک ماه فکر کنند و سپس برای یک سال. (جالب است که اگر آنها بتوانند بهطور نامحدود فکر کنند، با توجه به محاسبات کافی و فرض اینکه پیشرفت اصولا ممکن است، آنها میتوانند بهطور مداوم پاسخهای خود را به هر سوالی بهبود بخشند). استفاده از محاسبات زمان آزمایش میتواند برای حل مسائل از طریق نیروی بازدارنده به کار رود. یکی از تکنیکها این است که سعی کنید یک مساله را 10، 100 یا 1000بار حل کنید و سپس پاسخ با بیشترین «آرا» را انتخاب کنید. احتمالا این یکی دیگر از روشهایی است که o3 توانستهo1 را شکست دهد. نتیجه عملی فوری این همه این است که شما میتوانید بیشتر پرداخت کنید تا قابلیتهای پیشرفتهتری را زودتر دریافت کنید.
بهطور کمی، در سال 2026، پیشبینی میکنیم که شما قادر خواهید بود 100هزار برابر بیشتر پرداخت کنید تا به عملکردی برسید که قبلا فقط در سال 2028 در دسترس بود. بیشتر کاربران نمیخواهند این کار را انجام دهند اما اگر شما یک مشکل مهندسی، علمی یا تجاری حیاتی دارید، حتی یکمیلیون دلار نیز یک معامله مناسب است. بهویژه، پژوهشگران AI ممکن است بتوانند از این تکنیک برای ایجاد یک چرخه فزاینده دیگر برای تحقیقات AI استفاده کنند. این فرآیند به نام تقطیر و تقویت تکراری شناخته میشود که میتوانید در اینجا در مورد آن بیشتر بخوانید. بهطور کلی اینطور کار میکند: به مدل خود اجازه دهید برای مدت طولانیتری فکر کند تا پاسخهای بهتری به دست آورد (تقویت). از این پاسخها برای آموزش مدل جدید استفاده کنید. اکنون مدل میتواند تقریبا همان پاسخها را بلافاصله بدون نیاز به فکر کردن بیشتر تولید کند (تقطیر). حالا مدل جدید را برای مدت طولانیتری به تفکر وا دارید. آن مدل قادر خواهد بود حتی پاسخهای بهتری از مدل اصلی تولید کند و این فرآیند را تکرار کنید. این فرآیند اساسا همانطور که DeepMind AlphaZero را در عرض چند روز بدون هیچگونه داده انسانی برای بازی گو ابرشخصی کرد، کار میکند.
مرحله بعدی: ساخت مدلهای بهتر
«GPT-4» شبیه به یک همکار در روز اول کار است که هوشمند و با دانش است اما فقط به یک یا دو سوال پاسخ میدهد و سپس شرکت را ترک میکند. بدیهی است که این هم فقط کمی مفید است اما اکنون شرکتهای AI در حال تبدیل چتباتها به عاملیتها هستند. یک عاملیت AI قادر است یک زنجیره طولانی از کارها را برای دستیابی به یک هدف انجام دهد. برای مثال، اگر میخواهید یک اپلیکیشن بسازید، به جای درخواست کمک از مدل برای هر مرحله، به سادگی میگویید: «یک اپلیکیشن بساز که X کار را انجام دهد.» سپس مدل سوالات شفافسازی میپرسد، یک نمونه اولیه میسازد، آزمایش میکند، اشکالات را رفع میکند و یک محصول نهایی تحویل میدهد- درست مانند یک مهندس نرمافزار انسانی. عاملیتها از طریق دادن یک مدل استدلالی و افزودن حافظه و دسترسی به ابزارها (یک «ساختار پشتیبانی») کار میکنند:
1- شما هدفی به ماژول استدلال میدهید و این ماژول یک برنامه برای دستیابی به آن تهیه میکند
2- براساس آن برنامه، مدل از ابزارها برای انجام اقدامات استفاده میکند
3- نتایج به ماژول حافظه بازمیگردد
4- ماژول استدلال برنامه را بهروزرسانی میکند
5- این چرخه ادامه مییابد تا هدف بهدست آید (یا مشخص شود که غیرممکن است).
عاملیتهای AI در حال حاضر کمی کار میکنند. SWE-bench Verified یک معیار از مشکلات مهندسی نرمافزاری دنیای واقعی است که معمولا حدود یک ساعت برای تکمیل آنها زمان میبرد.«GPT-4» اساسا نمیتواند این مشکلات را حل کند زیرا شامل استفاده از چندین اپلیکیشن است. با این حال، زمانی که در یک ساختار عاملی ساده قرار داده شد: «GPT-4»میتواند حدود 20درصد از آنها را حل کند.
Claude Sonnet 3.5 میتواند 50درصد از آنها را حل کند و به گفته گزارشها GPT-o3 میتواند بیش از 70درصد را حل کند.
این به این معنی است که o3 اساسا به اندازه مهندسان نرمافزار حرفهای در تکمیل این وظایف گسسته کارآمد است. در مسائل رقابتی کدنویسی، این مدل در حدود 200رتبه اول جهان قرار میگرفت. حال به یکی از مهمترین معیارها در جهان توجه کنید: مجموعه مشکلات پیچیده تحقیقاتی مهندسی AI METR که به نام «RE Bench» شناخته میشود. این مشکلات شامل مسائلی مانند تنظیم مجدد مدلها یا پیشبینی نتایج تجربی است که مهندسان برای بهبود سیستمهای پیشرفته AI با آنها روبهرو هستند. این مشکلات بهطور خاص طراحی شدهاند تا مشکلات واقعا دشواری را شبیهسازی کنند که مهندسان AI در دنیای واقعی با آنها مواجه میشوند. مهمترین نکته در اینجا این است که حتی یک عامل ساده که براساس GPT-o1 و Claude 3.5 Sonnet ساخته شده، بهتر از کارشناسان انسانی عمل کرده است، دو ساعت زمانی که به آنها برای حل این مشکلات داده شده است، این عملکرد از انتظارات بسیاری از پیشبینیکنندگان فراتر رفته است (و هنوز o3 آزمایش نشده است).
عملکرد AI هنگامی که زمان بیشتری برای انجام کار داده میشود، بهطور کندتری نسبت به عملکرد انسان افزایش مییابد، بنابراین کارشناسان انسانی هنوز در حدود چهار ساعت از AIها پیشی میگیرند. اما مدلهای AI به سرعت در حال پیشرفت هستند 4اGPT- o تنها قادر بود به انجام کارهایی بپردازد که انسانها حدود ۳۰ دقیقه برای انجام آنها زمان نیاز داشتند. METR یک معیار وسیعتر از وظایف استفاده از کامپیوتر براساس افق زمانی ایجاد کرد. «GPT-2»تنها قادر بود کارهایی را انجام دهد که انسانها چند ثانیه برای آنها زمان میگذارند؛ «GPT-4» توانست وظایفی را انجام دهد که چند دقیقه زمان میبرد و آخرین مدلهای استدلالی قادر به انجام کارهایی بودند که انسانها کمی کمتر از یک ساعت برای آنها زمان نیاز داشتند.
اگر این روند تا پایان سال ۲۰۲۸ ادامه یابد، AI قادر خواهد بود وظایف تحقیقاتی AI و مهندسی نرمافزار را که انجام آنها چندین هفته طول میکشد، انجام دهد و همچنین با بسیاری از کارشناسان انسانی رقابت کند. نمودار بالا از مقیاس لگاریتمی استفاده میکند. اگر از مقیاس خطی استفاده کنیم، به این شکل خواهد بود:
خط قرمز نشان میدهد که روند در سال گذشته حتی سریعتر بوده است، شاید به دلیل تغییرات در مدلهای استدلال. مدلهای AI همچنین بهطور فزایندهای درک بهتری از زمینه خود دارند- بهطور صحیح به سوالات در مورد معماری خود، خروجیهای قبلی و اینکه آیا در حال آموزش یا استقرار هستند، پاسخ میدهند- که این خود یکی از پیشنیازهای دستیابی به «عاملیت» است. در یک نکته جالب، در حالی که Claude 3.7 هنوز در بازی پوکمون بسیار ضعیف است، نسبت به نسخه 5/3 بسیار بهتر عمل میکند و فقط یک سال پیش، Claude 3 اصلا نمیتوانست بازی کند. این نمودارها توضیح میدهند که چرا با وجود اینکه مدلهای AI میتوانند در پاسخ به سوالات بسیار «هوشمند» باشند، هنوز بسیاری از مشاغل را خودکار نکردهاند. بیشتر مشاغل فقط مجموعهای از وظایف مجزا و یک ساعته نیستند- بلکه شامل کشف اینکه چه کارهایی باید انجام شود، هماهنگی با تیم و پروژههای طولانی و نوآورانه با زمینههای زیاد و غیره است. حتی در یکی از قویترین حوزههای – AI مهندسی نرمافزار- امروز تنها میتواند وظایفی را انجام دهد که کمتر از یک ساعت طول میکشد و هنوز هم اغلب با مسائلی مانند پیدا کردن دکمه صحیح در یک وبسایت به مشکل میخورد. این یعنی هنوز راه زیادی در پیش است تا بتواند مهندسان نرمافزار را بهطور کامل جایگزین کند. با این حال، روندها نشان میدهند که احتمال تغییرات عمدهای در این زمینه وجود دارد. یک AI که میتواند وظایف یکروزه یا یک هفتهای را انجام دهد، قادر خواهد بود کار بیشتری نسبت به مدلهای فعلی خودکار کند. شرکتها ممکن است شروع به استخدام صدها «کارگر دیجیتال» تحت نظارت تعداد کمی انسان کنند. روند بهبود عوامل عاملیت تا کجا ادامه خواهد یافت؟ OpenAI سال 2025 را بهعنوان «سال عاملها» نامگذاری کرده است. در حالی که اسکافولد عاملهای AI هنوز ابتدایی است، این یک اولویت اصلی برای آزمایشگاههای پیشرو است که باید منجر به پیشرفتهای بیشتری شود. پیشرفتها همچنین از متصل کردن اسکافولد عاملها به مدلهای استدلالی قدرتمندتر بهدست خواهد آمد- که به عامل یک «مغز برنامهریزی» بهتر و قابلاعتمادتر میدهد. آنها به نوبه خود برپایه مدلهایی ساخته خواهند شد که با دادههای ویدئویی بیشتری آموزش دیدهاند، که ممکن است عاملها را در درک و تشخیص بهتر از قبل کنند- که در حال حاضر یکی از مشکلات عمده است. وقتی عاملها کمی شروع به کار کنند، این روند پیشرفتهای بیشتری را آزاد خواهد کرد: یک وظیفه برای عامل تعیین کنید، مانند خرید کردن یا نوشتن یک توئیت محبوب. سپس اگر موفق شد، از یادگیری تقویتی برای افزایش احتمال موفقیت در دفعات بعدی استفاده کنید. علاوه بر این، هر وظیفهای که با موفقیت انجام شود، میتواند بهعنوان داده آموزشی برای نسل بعدی عاملها استفاده شود. جهان یک منبع بیپایان از داده است که به عاملها این امکان را میدهد تا بهطور طبیعی یک مدل علّی از جهان بسازند. هرکدام از این اقدامات میتواند قابلیت اطمینان را بهطور قابلتوجهی افزایش دهد و همانطور که در این مقاله چندینبار مشاهده کردهایم، بهبود قابلیت اطمینان میتواند بهطور ناگهانی قابلیتهای جدیدی را باز کند: حتی یک وظیفه ساده مانند پیدا کردن و رزرو هتلی که به ترجیحات شما بخورد، نیاز به دهها گام دارد. با شانس ۹۰درصد در تکمیل هر گام بهدرستی، تنها ۱۰درصد شانس وجود دارد که ۲۰ گام بهدرستی تکمیل شود اما با قابلیت اطمینان ۹۹درصد برای هر گام، شانس کلی موفقیت از ۱۰درصد به ۸۰درصد افزایش مییابد تفاوت بین غیرقابلاستفاده و بسیار مفید. بنابراین، پیشرفت میتواند بهشدت سریع باشد. با این حال، باید گفت که عامل بودن هنوز نامطمئنترین عامل از چهار عامل پیشرفت است. هنوز معیارهای دقیقی برای اندازهگیری آن نداریم، بنابراین اگرچه ممکن است پیشرفت زیادی در هدایت برخی از نوع وظایف وجود داشته باشد، پیشرفت در ابعاد دیگر میتواند کندتر بماند. چندین نقطه ضعف قابلتوجه ممکن است کاربردهای AI را محدود کند. ممکن است برای اینکه بهطور واقعی مفید باشد، به پیشرفتهای بنیادیتری نیاز باشد. با این حال، روندهای اخیر و بهبودهای فوق در فرآیندها به این معنی است که انتظار دارم که پیشرفتهای قابلتوجهی را در آینده نزدیک مشاهده کنم.
تا سال 2030 AI چقدر پیشرفته خواهد داشت؟
چهار عامل پیشرفت پیشبینی شده است. نگاه به دو سال آینده نشان میدهد که همه چهار عامل پیشرفت AI بهطور مداوم ادامه خواهند داشت و بر یکدیگر ساخته خواهند شد:
* یک مدل پایه که با ۵۰۰ برابر بیشتر از محاسبات موثر«GPT-4»آموزش دیده است، منتشر خواهد شد «GPT-5».
* این مدل میتواند با ۱۰۰ برابر محاسبات بیشتر از o1 آموزش دیده و استدلال کند (‘o5’).
* این مدل قادر خواهد بود به مدت یک ماه برای هر وظیفه فکر کند، زمانی که نیاز باشد.
* به یک اسکافولد عامل بهبود یافته متصل خواهد شد و بیشتر تقویت خواهد شد تا عاملیت بیشتری داشته باشد.
و این پایان کار نخواهد بود. شرکتهای پیشرو در مسیر انجام عملیات آموزش مدلهای به اندازه«GPT-6» با هزینه ۱۰میلیارد دلار تا سال ۲۰۲۸ هستند. این میزان برای آموزش یک مدل پایه به اندازه «GPT-6»و انجام ۱۰۰ برابر بیشتر از یادگیری تقویتی (یا ترکیب دیگری از آن) کافی خواهد بود. علاوهبراین، پیشرفتهای جدید مانند مدلهای استدلالی بهطور تقریبی هر یکی، دو سال یکبار ظهور میکنند، بنابراین باید حداقل یک کشف دیگر مانند این را در چهار سال آینده پیشبینی کنیم و احتمالا پیشرفتهای بنیادیتر مشابه خود یادگیری عمیق را خواهیم دید.
ترکیب تمام اینها نشان میدهد افرادی که آینده را بهعنوان «چتباتهای کمی بهتر» تصور میکنند، اشتباه میکنند. مگر اینکه یک اختلال عمده رخ دهد، پیشرفت در اینجا متوقف نخواهد شد. سوال چند تریلیون دلاری این است که هوش مصنوعی تا چه حد پیشرفته خواهد شد.
خلاصه روند پیشرفت قابلیتهای هوشمصنوعی
در نهایت هیچکس نمیداند اما یکی از راههای بهدست آوردن پاسخی دقیقتر این است که پیشرفتها را در معیارهای اندازهگیری قابلیتهای هوش مصنوعی پیشبینی کنیم. با توجه به اینکه تمام عواملی که موجب پیشرفت میشوند بهطور مشابه با گذشته در حال ادامه یافتن هستند، میتوانیم بهطور تقریبی روند پیشرفت اخیر را پیشبینی کنیم. در اینجا خلاصهای از تمام معیارهایی که تاکنون بحث کردهایم (به علاوه چند معیار دیگر) آورده شده است و اینکه ممکن است تا سال ۲۰۲۶ به کجا برسند:
این به این معناست که در دو سال آینده باید انتظار داشته باشیم که سیستمهای هوش مصنوعی:
* دارای دانش تخصصی در تمام زمینهها باشند
* بتوانند به سوالات ریاضی و علمی به اندازه بسیاری از محققان حرفهای پاسخ دهند
* در برنامهنویسی از انسانها بهتر عمل کنند
* دارای مهارتهای استدلالی عمومی بهتری نسبت به تقریبا تمام انسانها باشند
* قادر به تکمیل خودکار بسیاری از وظایف طولانیمدت روزانه در کامپیوتر باشند
* و همچنان بهسرعت در حال پیشرفت باشند.
پرش بعدی ممکن است ما را به حل مسائل فراتر از انسانها برساند- توانایی پاسخ به سوالات علمی که هنوز حل نشدهاند بهطور مستقل. این سیستمها به چه شغلهایی میتوانند کمک کنند؟ بسیاری از موانع در راه استقرار سیستمهای هوش مصنوعی در دنیای واقعی وجود دارد، حتی برای آنهایی که میتوانند از کامپیوتر استفاده کنند. این موانع شامل مقررات، عدم تمایل به تصمیمگیری بهوسیله هوشمصنوعیها، عدم قابلیت اعتماد کافی و حرکت کند نهادها و عدم حضور فیزیکی هستند. در ابتدا، سیستمهای قدرتمند همچنین گرانقیمت و استقرار آنها محدود به محاسبات در دسترس خواهد بود، بنابراین آنها تنها برای ارزشمندترین وظایف بهکار خواهند رفت. این به این معناست که بیشتر اقتصاد احتمالا برای مدتی به همان شکل قبلی ادامه خواهد یافت. شما هنوز هم از پزشکان انسانی مشاوره خواهید گرفت (حتی اگر از ابزارهای هوش مصنوعی استفاده کنند)، از بارستاهای انسانی قهوه خواهید گرفت و لولهکشهای انسانی استخدام خواهید کرد. با این حال، چندین زمینه حیاتی وجود دارد که با وجود این موانع، این سیستمها میتوانند بهسرعت پیادهسازی شده و تاثیرات قابلتوجهی داشته باشند.
مهندسی نرمافزار
این جایی است که هوش مصنوعی بهطور جدی در حال اعمال شدن است. گوگل گفته است که حدود ۲۵درصد از کد جدیدشان توسط هوش مصنوعیها نوشته میشود. استارتاپهای Y Combinator میگویند که این عدد ۹۵درصد است و آنها چندین برابر سریعتر از قبل در حال رشد هستند. اگر برنامهنویسی ۱۰ برابر ارزانتر شود، ما از آن بیشتر استفاده خواهیم کرد. ممکن است بهزودی شاهد استارتاپهای نرمافزاری با ارزش میلیارد دلاری باشیم که تعداد کمی کارمند انسانی دارند و صدها عامل هوش مصنوعی. چندین استارتاپ هوشمصنوعی هماکنون تبدیل به سریعترین شرکتهای در حال رشد تاریخ شدهاند. این کاربرد محدود هوش مصنوعی میتواند بهسرعت صدهامیلیارد دلار ارزش اقتصادی تولید کند- بهاندازهای که بتواند ادامه توسعه مقیاسپذیری هوشمصنوعی را تامین کند.
کاربرد هوش مصنوعی در اقتصاد ممکن است بهطور چشمگیری گسترش یابد. بهعنوان مثال، اپوک پیشبینی کرده است که شاید یکسوم وظایف کاری را میتوان از راه دور از طریق کامپیوتر انجام داد و خودکارسازی اینها میتواند اقتصاد را بیش از دوبرابر کند.
تحقیقات علمی
سازندگان AlphaFold قبلا برای طراحی هوشمصنوعیای که مسائل تاشدن پروتئینها را حل میکند، جایزه نوبل را دریافت کردهاند. یک مطالعه اخیر نشان داد که یک ابزار هوش مصنوعی محققان علوم مواد را ۸۰درصد سریعتر در پیدا کردن مواد نوین راهنمایی کرد و انتظار میرود که نتایج مشابهی پس از اینکه دانشمندان هوش مصنوعی را برای حل مشکلات خاص، مثلا با آموزش روی دادههای ژنتیکی یا کیهانی، تطبیق دهند، مشاهده شود. مدلهای آینده ممکن است بتوانند بهطور واقعی بینشهای جدیدی بهدست آورند. فقط با اینکه کسی از آنها خواسته باشد اما حتی اگر اینطور نباشد، بسیاری از علوم میتوانند به نیروی محاسباتی بروند. بهویژه، در هر زمینهای که عمدتا مجازی باشد و دارای پاسخهای قابلتایید باشد- مانند ریاضیات، مدلسازی اقتصادی، فیزیک نظری یا علوم کامپیوتر- تحقیقات میتواند با تولید هزاران ایده و سپس تایید آنهایی که کار میکنند، تسریع شود. حتی در یک زمینه تجربی مانند زیستشناسی، موانعی مانند برنامهنویسی و تحلیل دادهها وجود دارد که میتوانند بهطور چشمگیری کاهش یابند. یک اختراع مانند سلاحهای هستهای میتواند مسیر تاریخ را تغییر دهد، بنابراین تاثیر هرگونه تسریع در این زمینه میتواند دراماتیک باشد.
تحقیقات هوش مصنوعی
زمینهای که بهویژه به تسریع پاسخ میدهد، تحقیقات هوش مصنوعی خود است. علاوه بر اینکه کاملا مجازی است، این زمینهای است که محققان هوش مصنوعی آن را بهتر درک میکنند، انگیزههای زیادی برای خودکارسازی دارند و هیچ مانعی برای استفاده از هوش مصنوعی وجود ندارد. در ابتدا، این ممکن است شبیه به استفاده از عوامل هوشمصنوعی سطح «کارآموز» باشد تا محققان را در انجام وظایف خاص یا ظرفیت مهندسی نرمافزار (که یک گلوگاه بزرگ است) باز کنند، یا حتی برای کمک به طوفان فکری ایدهها. بعدا ممکن است شبیه به این باشد که مدلها تمام ادبیات را مطالعه کنند، هزاران ایده برای بهبود الگوریتمها تولید کنند و آنها را بهطور خودکار در آزمایشات مقیاسکوچک تست کنند. مدل هوشمصنوعی قبلا یک مقاله تحقیقاتی هوشمصنوعی تولید کرده است که در کنفرانس پذیرفته شده است. در اینجا فهرستی از دیگر روشهایی که هوش مصنوعی در حال حاضر برای تحقیقات هوش مصنوعی بهکار میبرد، آمده است. با توجه به همه اینها، محتمل است. قبل از اینکه انسانها تمام مشکلاتی که به هوش مصنوعی اجازه میدهد بیشتر کارهای دورکاری را انجام دهد، شاهد استفاده از عوامل هوش مصنوعی برای تحقیقات هوش مصنوعی باشیم. کاربرد گسترده اقتصادی هوش مصنوعی ممکن است لزوما روش خوبی برای سنجش پیشرفت هوش مصنوعی نباشد این ممکن است بهطور انفجاری بعد از آن که قابلیتهای هوشمصنوعی بهطور قابلتوجهی پیشرفت کرده باشد، دنبال شود.
چرا ممکن است پیشرفت هوش مصنوعی در سال ۲۰۳۰ چشمگیر نباشد؟
در اینجا قویترین استدلال از نظر من آمده است: اول، فرض کنید که هوش مصنوعی احتمالا در انجام وظایف واضح و گسسته از انسانها فراتر از توانایی خواهد بود، به این معنا که ما پیشرفتهای سریعتری در معیارها مشاهده خواهیم کرد اما استدلال کنید که در وظایف مبهم، با بافت بالا و با افق زمانی طولانی همچنان ضعیف خواهد ماند. این به این دلیل است که این نوع وظایف پاسخهای واضح و قابلتایید سریع ندارند، بنابراین نمیتوان آنها را با یادگیری تقویتی آموزش داد و در دادههای آموزشی نیز وجود ندارند. این به این معناست که نرخ پیشرفت در این نوع وظایف کند خواهد بود و ممکن است به سطحی ثابت برسد. اگر هم بگویید موقعیت اولیه آنها ضعیف است، حتی پس از 4 یا 6 سال پیشرفت، ممکن است همچنان ضعیف باشد. دوم، استدلال کنید که بیشتر مشاغل دانشبنیان بهطور قابلتوجهی شامل این وظایف طولانیمدت، نامرتب و با بافت بالا هستند. برای مثال، مهندسان نرمافزار بیشتر زمان خود را صرف درک اینکه چه چیزی بسازند، هماهنگسازی با دیگران و درک پایگاههای کد عظیم میکنند تا فقط لیستی از وظایف تعریف شده را انجام دهند. حتی اگر بهرهوری آنها در برنامهنویسی ۱۰برابر افزایش یابد، اگر برنامهنویسی فقط ۵۰درصد از کار آنها باشد، بهرهوری کلی آنها تنها بهطور تقریبی دوبرابر خواهد شد. یک مثال برجسته از یک وظیفه نامرتب و مبهم داشتن بینشهای تحقیقاتی نوین است، بنابراین ممکن است استدلال کنید که این وظیفه که برای تسریع بسیار مهم است، احتمالا سختترین وظیفه برای خودکارسازی باشد (برخلاف دیگرانی که فکر میکنند تحقیقات هوش مصنوعی ممکن است آسانتر از بسیاری از مشاغل دیگر خودکار شود). در این سناریو، ما دستیاران هوشمصنوعی فوقالعاده هوشمند و با دانش خواهیم داشت و شاید تسریعی در برخی حوزههای مجازی محدود (شاید مانند تحقیقات ریاضی) مشاهده کنیم، اما آنها همچنان ابزار خواهند بود و انسانها همچنان گلوگاه اصلی اقتصادی و علمی خواهند بود. محققان هوش مصنوعی انسانی شاهد افزایش بهرهوری خود خواهند بود، اما نه بهاندازهای که یک چرخه بازخورد مثبت آغاز شود- پیشرفت هوش مصنوعی همچنان تحتتاثیر بینشهای نوین، هماهنگی انسانی و محاسبات محدود خواهد ماند.
این محدودیتها، بهعلاوه مشکلاتی مانند پیدا کردن مدل تجاری و سایر موانع برای استقرار هوش مصنوعی، به این معنا خواهد بود که مدلها درآمد کافی برای توجیه اجرای آموزشهای بیش از ۱۰میلیارد دلار ایجاد نخواهند کرد. این به این معناست که پیشرفت بهطور چشمگیری پس از حدود سال ۲۰۲۸ کند خواهد شد. پس از کند شدن پیشرفت، حاشیههای سود مدلهای پیشرفته کاهش مییابد، که باعث میشود حتی پرداخت برای آموزشهای بیشتر دشوارتر شود.
تفسیر کلی این است که AGI تا سال 2030 در محدوده نظر کارشناسان قرار دارد، بنابراین رد کردن آن به عنوان «علم تخیلی» بیدلیل است. در واقع، افرادی که بیشتر در مورد این فناوری میدانند، کوتاهترین زمانها را برای آن پیشبینی کردهاند. البته بسیاری از کارشناسان معتقدند که این موضوع مدت زمان بیشتری خواهد برد. اما اگر 30درصد از کارشناسان فکر کنند که یک هواپیما منفجر خواهد شد و 70درصد دیگر فکر کنند که مشکلی پیش نخواهد آمد، به عنوان غیرکارشناسان، نباید نتیجه بگیریم که قطعا این اتفاق نخواهد افتاد. اگر چیزی نامشخص باشد، به این معنی نیست که آن اتفاق نخواهد افتاد.
چرا 5 سال آینده حیاتی است؟
طبیعی است که فرض کنیم چون نمیدانیم AGI چه زمانی ظهور خواهد کرد، ممکن است به زودی، در دهه 2030، 2040 و … برسد.با اینکه این دیدگاه رایج است، من مطمئن نیستم که درست باشد. درایورهای اصلی پیشرفت AI بیشتر محاسبات بیشتر و الگوریتمهای بهتر هستند. احتمالا کشف AI قدرتمندتر زمانی خواهد بود که محاسبات و نیروی کاری که برای بهبود AI استفاده میشود، به طور چشمگیری افزایش یابد. در حال حاضر، مجموع محاسباتی که برای آموزش و اجرای AI در دسترس است، سالانه 3 برابر میشود و نیروی کار نیز به سرعت در حال رشد است. این به این معنی است که هر سال، تعداد مدلهای AI که میتوان اجرا کرد 3برابر میشود. علاوهبراین، در محاسبات سه برابر بیشتری میتواند برای آموزش استفاده شود و این آموزشها از الگوریتمهای بهتر بهرهمند خواهند شد، که باعث میشود مدلها هم قدرتمندتر و هم بیشتر شوند. قبلا استدلال کردهام که این روند تا سال 2028 ادامه خواهد یافت اما اکنون نشان خواهم داد که احتمالا پس از آن با گلوگاههایی روبهرو خواهیم شد.
گلوگاهها در اطراف سال 2030
اول، پول: گوگل، مایکروسافت، متا و غیره، دههامیلیارد دلار برای ساخت خوشههایی که میتوانند یک مدل به اندازه GPT-6 را در سال 2028 آموزش دهند، هزینه میکنند. برای 10برابر افزایش مقیاس، صدهامیلیارد دلار سرمایهگذاری نیاز است. این قابل انجام است اما بیشتر از سود سالانه فعلی آنها خواهد بود و مشابه مقیاس پروژههای بزرگی همچون پروژه آپولو یا پروژه منهتن خواهد بود. GPT-8 نیاز به تریلیونها دلار خواهد داشت. AI باید به اولویت نظامی تبدیل شود یا قبلا درآمد تریلیونها دلاری تولید کرده باشد (که احتمالا نشاندهنده این است که AGI به وجود آمده است.)
دوم، برق: اگر فروش تراشههای AI به همین سرعت ادامه یابد، ممکن است تراشههای AI در سال 2028 بیش از 4درصد از برق ایالات متحده را مصرف کنند. افزایش 10برابری دیگر این رقم را به بیش از 40درصد میرساند که به ساخت نیروگاههای زیادی نیاز دارد.
سوم، تولید تراشه: TSMC (شرکت تولید نیمههادی تایوان)، که تراشههای پیشرفته AI را تولید میکند، با چالشهایی در مقیاس تولید برای برآوردن نیازهای AI مواجه است. در حالی که TSMC میتواند به راحتی 5 برابر بیشتر از تولید فعلی تراشههای AI تولید کند، افزایش آن به 50برابر، یک چالش بزرگ خواهد بود.
چهارم، محدودیتهای تاخیر: این محدودیتها میتوانند از آموزش مدلهایی به اندازه GPT-7جلوگیری کنند که باعث کند شدن پیشرفت میشود. بنابراین به احتمال زیاد، نرخ رشد محاسباتی بین سالهای 2028 و 2032 کند خواهد شد.
پیشرفت الگوریتمی و چالشهای نیروی کار: پیشرفتهای الگوریتمی به سرعت در حال انجام است اما هر چه کشف جدیدی انجام میشود، کشف بعدی سختتر میشود. برای حفظ نرخ پیشرفت ثابت، نیروی کار تحقیقاتی باید به طور نمایی رشد کند. به عنوان مثال، OpenAI از 300 کارمند در سال 2021 امروز به حدود 3000 نفر رسیده است. شرکتهای دیگری مانند Anthropic و DeepMind نیز به همین ترتیب رشد کردهاند. با این حال، این نوع گسترش نیروی کار فقط برای مدت معینی میتواند ادامه یابد و بعد از آن کمبود استعداد یا فرسایش ممکن است محدودکننده شود.
رقابت برای غلبه بر گلوگاهها: سوال اصلی این است که آیا مدلهای AI میتوانند به اندازه کافی بهبود یابند و درآمد کافی برای تامین منابع آموزش بعدی تولید کنند قبل از اینکه با محدودیت مالی روبهرو شوند. یا اینکه آیا AI میتواند به تحقیق در مورد الگوریتمهای خود کمک کند قبل از اینکه محققان انسانی محدود شوند؟ لحظه کلیدی احتمالا در 2032–2028 خواهد بود. این زمانی است که گلوگاههای مهمی ظاهر میشوند و آیا AI میتواند بر آنها غلبه کند یا نه، مسیر پیشرفت بعدی را شکل خواهد داد.
2آینده بالقوه برای AI
اگر AI تا قبل از 2032-2028 نتواند به تحقیق در مورد الگوریتمهای خود کمک کند، احتمال دستیابی به AGI در یک بازه زمانی کوتاه کاهش پیدا خواهد کرد. با این حال، پیشرفت ناگهان متوقف نمیشود؛ بلکه به تدریج کند میشود. تقریبا میتوانیم برای دو سناریو برنامهریزی کنیم:
1- ما به AIای دست پیدا میکنیم که میتواند تاثیرات تحولآفرین ایجاد کند تا حدود سال 2030: پیشرفت AI ادامه مییابد یا حتی تسریع میشود و احتمالا وارد دورهای از تغییرات انفجاری خواهیم شد.
2- یا پیشرفت کند میشود: مدلهای AI در انجام وظایف مشخص و تعریفشده بهتر میشوند اما قادر نخواهند بود کارهای نامشخص و افقهای بلندمدت مورد نیاز برای باز کردن یک رژیم رشد جدید را انجام دهند. شاهد اتوماسیون زیادی از طریق AI خواهیم بود اما به غیر از آن، جهان بیشتر شبیه به حالت «عادی» باقی خواهد ماند. ما طی چند سال آینده اطلاعات بیشتری خواهیم داشت که در کدام سناریو قرار داریم. من بهطور تقریبی این سناریوها را به نسبت 50-50 میبینم، البته میتوانم این نسبت را بسته به روز به 30درصد یا 80درصد تغییر دهم.
سناریوهای ترکیبی نیز ممکن است وجود داشته باشد مقیاسدهی ممکن است بهطور تدریجی کند شود یا به دلیل یک درگیری در تایوان چند سال به تاخیر بیفتد که باعث میشود «AGI» به اوایل دهه 30 میلادی منتقل شود اما مفید است که با یک مدل ساده شروع کنیم.
اعدادی که برای هر سناریو در نظر میگیرید، همچنین به تعریف شما از AGI و آنچه که فکر میکنید تحولآفرین خواهد بود، بستگی دارد. من بیشتر علاقهمند به پیشبینی AI هستم که بتواند بهطور معناداری به تحقیق در مورد AI کمک کند. AGI به معنای مدلی که میتواند تقریبا تمام وظایف کاری از راه دور را ارزانتر از یک انسان انجام دهد، احتمالا به دلیل یک دنباله طولانی از گلوگاهها زمان بیشتری خواهد برد. از طرف دیگر، AGI به معنای «بهتر از تقریبا تمام انسانها در استدلال زمانی که یک ساعت فرصت داده شود»، به نظر میرسد که بهطور اساسی هماکنون موجود باشد.
نتیجهگیری
آیا تا سال 2030 AGI خواهیم داشت؟ بسته به تعریف دقیق، شواهد قابلتوجهی از این احتمال حمایت میکنند ممکن است تنها نیاز باشد که روندهای فعلی را چند سال دیگر ادامه دهیم. هرگز شواهد قطعی برای هر کدام از این دو گزینه نخواهیم داشت اما برای من به وضوح بیش از حد خوشبینانه به نظر میرسد که احتمال وقوع AGI پیش از 2030 را کمتر از 10درصد بدانیم. با توجه به پیامدهای عظیم و خطرات جدی، شواهد کافی برای جدی گرفتن این احتمال بهشدت وجود دارد. وضعیت کنونی شبیه به فوریه 2020، درست پیش از قفل شدنهای کووید است: روندی واضح تغییرات عظیمی را پیشبینی میکرد اما بیشتر مردم زندگی خود را بهطور عادی ادامه دادند. در مقالهای که به زودی منتشر خواهم کرد، استدلالم خودکار شدن بیشتر کارها از راه دور توسط AGI و دو برابر شدن اقتصاد ممکن است نتیجهای محتاطانه باشد. اگر AI بتواند تحقیق در مورد AI انجام دهد، فاصله بین AGI و «هوش فراتر از انسان» میتواند بسیار کوتاه باشد. این میتواند منجر به گسترش عظیم نیروی کار تحقیقاتی شود که احتمالا پیشرفت علمی یک قرن را در کمتر از یک دهه ارائه خواهد داد. رباتیک، بیوتکنولوژی و استقرار فضایی ممکن است بسیار زودتر از آنچه که معمولا انتظار میرود، به وقوع بپیوندد. پنج سال آینده میتواند آغاز یکی از مهمترین دورههای تاریخ باشد.
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد