سریع‌تر، تواناتر و رایگان

«میرا موراتی»: اولین بار است که در مورد سهولت استفاده گام بزرگی رو به جلو برمی‌داریم

گروه فناوری- شرکت «اوپن‌ای‌آی» مدل هوش مصنوعی «GPT-4o» را معرفی کرد که یک مدل کاملا جدید از هوش مصنوعی این شرکت است که به گفته اوپن‌ای‌آی یک گام به تعامل بسیار طبیعی‌تر میان انسان و رایانه نزدیک‌تر شده است.
«GPT-4o» نسخه‌ اصلاح‌شده‌ مدل زبانی «GPT-4» است که به‌ عنوان قلب تپنده‌ چت‌بات معروف ChatGPTعمل می‌کند. حرف o در عبارت «GPT-4o» مخفف Omni به معنی عالم‌گیر یا جهانی است. این مدل در اختیار تمام کاربران شامل کاربران سرویس رایگان و پولی این شرکت قرار می‌گیرد. قابلیت‌های متن و تصویر این مدل برای همه کاربران عرضه می‌شود، اما قابلیت جدید Voice Mode آن ابتدا به ‌صورت آلفا از هفته‌های آینده برای کاربران ChatGPT Plus در دسترس قرار خواهد گرفت و بعد به مرحله انتشار گسترده‌تر می‌رود. «میرا موراتی» مدیر ارشد فناوری شرکت اوپن‌ای‌آی در پخش زنده معرفی این مدل جدید گفت: نکته ویژه در مورد «GPT-4o» این است که هوش سطح «GPT-4» برای همه، از جمله کاربران رایگان ما در دسترس قرار گرفته است. این اولین بار است که در مورد سهولت استفاده گام بزرگی رو به جلو برمی‌داریم.
در بخشی از مراسم OpenAI شاهد عملکرد حیرت‌انگیز «GPT-4o» در حل مسائل ریاضی و حتی درک لحن حرف‌ زدن کاربر بودیم. قابلیت صوتی جدید «GPT-4o»کاملا به احساسات کاربر واکنش نشان می‌دهد و با لحنی صمیمی مشغول صحبت‌ کردن و حتی داستان ‌گفتن می‌شود. سم آلتمن، مدیرعامل ‌OpenAI، اعلام کرد که مدل«GPT-4o» به‌ صورت ذاتی، چند حالته است. این یعنی مدل جدید می‌تواند افزون‌بر متن، محتواهای صوتی و تصویری را تولید کند و بفهمد.
اوپن‌ای‌آی در طول معرفی این مدل نشان داد که به صورت زنده بین انگلیسی و ایتالیایی ترجمه می‌کند، با توانایی درک بصری به یک پژوهشگر کمک می‌کند تا یک معادله خطی را در لحظه روی کاغذ حل ‌کند و تنها با گوش دادن به نفس‌های یکی از مدیران اوپن‌ای‌آی درباره تنفس عمیق به او راهنمایی می‌دهد. اوپن‌ای‌آی گفت که «GPT-4o» با متن، تصویر و صدا آموزش داده شده است، به این معنی که تمام ورودی‌ها و خروجی‌ها توسط یک شبکه عصبی پردازش می‌شوند. این با مدل‌های قبلی این شرکت شامل «GPT-3.5» و «GPT-4» متفاوت است که به کاربران اجازه می‌دادند تنها با صحبت کردن سوال بپرسند، اما سپس سخنان را به متن تبدیل می‌کردند. این موجب می‌شد لحن و احساسات از بین برود و تعاملات کندتر شود. معرفی مدل جدید اوپن‌ای‌آی یک روز قبل از برگزاری رویداد گوگل I/O که کنفرانس سالانه توسعه‌دهندگان این شرکت است، انجام شد.
گفتنی است مدت کوتاهی پس از اینکه اوپن‌ای‌آی «GPT-4o» را معرفی کرد، گوگل نیز نسخه‌ای از هوش مصنوعی خود موسوم به «جمینای» را با قابلیت‌های مشابه به نمایش گذاشت. در حالی که مدل«GPT-4» در وظایف مربوط به تجزیه و تحلیل تصاویر و متن برتر بود، مدل «GPT-4o» پردازش گفتار را ادغام می‌کند و طیف قابلیت‌های آن را گسترش می‌دهد.
تعامل طبیعی انسان و رایانه
طبق گفته اوپن‌ای‌آی، مدل
«GPT-4o»گامی به سوی تعامل بسیار طبیعی‌تر انسان و رایانه است که هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی می‌پذیرد و هر ترکیبی از متن، صدا و تصویر را تولید می‌کند. این مدل می‌تواند به ورودی‌های صوتی در کمتر از ۲۳۲میلی‌ثانیه و با میانگین سرعت ۳۲۰میلی‌ثانیه پاسخ دهد که مشابه زمان پاسخ‌دهی انسان‌ها در مکالمه است. این مدل عملکرد مدل
«GPT-4 Turbo » روی متن زبان انگلیسی و کد را با بهبود قابل توجهی در تبدیل متن به زبان‌های غیرانگلیسی مطابقت می‌دهد، در حالی که در واسطه برنامه‌نویسی کاربردی(API) بسیار سریع‌تر و ۵۰درصد ارزان‌تر است.
مدل «GPT-4o» به ویژه در درک تصویری و صوتی در مقایسه با مدل‌های موجود بهتر است.
معرفی این مدل دقیقا چه معنایی برای کاربران دارد؟
مدل «GPT-4o» به طور قابل توجهی تجربه ChatGPT را که روبات گفت‌وگوگر هوش مصنوعی بسیار محبوب اوپن‌ای‌آی است، افزایش می‌دهد. کاربران اکنون می‌توانند مانند یک دستیار شخصی با ChatGPT تعامل داشته باشند، از آن سوال بپرسند و حتی آن را در هر جای دلخواه قطع کنند. علاوه بر این، همانطور که گفته شد اوپن‌ای‌آی نسخه دسکتاپ ChatGPT را در کنار یک رابط کاربری اصلاح شده، معرفی می‌کند.
«موراتی» تاکید کرد: ما پیچیدگی فزاینده این مدل‌ها را تشخیص می‌دهیم، اما هدف ما این است که تجربه تعامل را بصری‌تر و یکپارچه‌تر کنیم. می‌خواهیم کاربران به جای اینکه حواس‌شان به رابط کاربری پرت شود، روی همکاری با GPT تمرکز کنند. مدل جدید ما می‌تواند متن، صدا و ویدئو را در لحظه استدلال کند. این مدل همه‌کاره بوده، کار با آن سرگرم‌کننده است و گامی به سوی شکل بسیار طبیعی‌تر تعامل انسان و رایانه و حتی تعامل انسان-رایانه-رایانه است. مدل «GPT-4o» با بیش از ۷۰ متخصص در حوزه‌هایی مانند روان‌شناسی اجتماعی، سوءگیری و انصاف و اطلاعات نادرست برای شناسایی خطراتی که با روش‌های جدید اضافه شده معرفی یا تقویت می‌شود، تحت بررسی گسترده‌ای قرار گرفته است. اوپن‌ای‌آی از این یادگیری‌ها برای ایجاد مداخلات ایمنی به منظور بهبود ایمنی تعامل با
«GPT-4o» استفاده کرده است.
اعضای تیم اوپن‌ای‌آی در معرفی عمومی این مدل جدید، مهارت صوتی آن را به نمایش گذاشتند. یک پژوهشگر به نام «مارک چن» بر توانایی آن در سنجش احساسات تاکید و به سازگاری آن با وقفه‌های کاربر اشاره کرد. «چن» تطبیق‌پذیری این مدل را با درخواست یک داستان قبل از خواب با لحن‌های متنوع، از دراماتیک تا روباتیک نشان داد و حتی از آن خواست که آن را برایش بخواند. «سام آلتمن» مدیرعامل اوپن‌ای‌آی گفت: این برای ما مهم است، چراکه می‌خواهیم ابزارهای هوش مصنوعی عالی را در دسترس همگان قرار دهیم.
بازار قوی برای هوش مصنوعی مولد
شرکت «اوپن‌ای‌آی» در کنار «مایکروسافت» و «گوگل» در حوزه هوش مصنوعی مولد پیشتاز است، زیرا شرکت‌ها در بخش‌های مختلف عجله دارند تا چت‌بات‌ها یا روبات‌های گفت‌وگوگر مبتنی بر هوش مصنوعی خود را در خدمات خود ادغام کنند تا رقابتی باقی بمانند. به عنوان مثال شرکت «آنتروپیک» که رقیب اوپن‌ای‌آی محسوب می‌شود، به تازگی از اولین پیشنهاد سازمانی خود به شرکت اپل برای ارائه یک برنامه رایگان برای گوشی‌های آیفون پرده برداشت.
اوپن‌ای‌آی در بیانیه‌ای گفت: متوجه‌ایم که ارائه‌های صوتی«GPT-4o» خطرات جدیدی را به همراه دارد. امروز ورودی‌های متن و تصویر و خروجی متن را به صورت عمومی منتشر می‌کنیم و در هفته‌ها و ماه‌های آینده روی زیرساخت‌های فنی، قابلیت استفاده پس از آموزش و ایمنی لازم برای انتشار سایر روش‌ها کار خواهیم کرد. به عنوان مثال هنگام راه‌اندازی، خروجی‌های صوتی به مجموعه‌ای از صداهای از پیش تعیین شده محدود می‌شوند و از سیاست‌های ایمنی موجود ما تبعیت می‌کنند. ما جزئیات بیشتری را در مورد طیف کامل روش‌های
«GPT-4o»در سیستم آینده به اشتراک خواهیم گذاشت. بر این اساس بازار هوش مصنوعی مولد نیز شاهد سرمایه‌گذاری خیره‌کننده ۱/۲۹میلیارد دلاری در نزدیک به ۷۰۰معامله در سال ۲۰۲۳ بود که بیش از ۲۶۰درصد نسبت به سال قبل افزایش داشت. پیش‌بینی‌ها حاکی از آن است که بازدهی این بازار در دهه آینده از یک تریلیون دلار فراتر رود. با این حال، نگرانی‌ها در مورد استقرار سریع خدمات آزمایش‌نشده توسط دانشگاهیان و اخلاق‌گراهایی که از پتانسیل این فناوری برای تداوم تعصبات مشکل دارند، وجود دارد.
چت‌بات ChatGPT از زمان راه‌اندازی در نوامبر ۲۰۲۲ رکوردهایی را به عنوان سریع‌ترین رشد مصرف‌کننده در تاریخ شکسته است و تقریبا ۱۰۰میلیون کاربر فعال هفتگی دارد. اوپن‌ای‌آی گزارش می‌دهد که بیش از ۹۲درصد از ۵۰۰شرکت برتر دنیا از آن استفاده می‌کنند.
در رویداد معرفی این مدل موراتی به پاسخ به برخی از سوالات مخاطبان پرداخت و وقتی او به زبان ایتالیایی روان صحبت کرد و هوش مصنوعی صحبت‌های وی را به انگلیسی ترجمه کرد، سالن مملو از شور و هیجان شد. اطلاعات بیشتری نیز وجود دارد. این یعنی دفعه بعد که سلفی می‌گیرید، هوش مصنوعی اوپن‌ای‌آی می‌تواند احساسات دقیق شما را ارزیابی کند. تنها کاری که باید انجام دهید این است که یک عکس سلفی را انتخاب کنید و از ChatGPT بخواهید که احساس شما را مشخص کند. گفتنی است عوامل شرکت اوپن‌ای‌آی آنقدر خوشحال بودند که ChatGPT از آنها دلیل خوشحالی شدیدشان را جویا شد!

روزنامه جهان صنعت

سریع‌تر، تواناتر و رایگان

اشتراک گذاری