15 - 05 - 2024
سریعتر، تواناتر و رایگان
«میرا موراتی»: اولین بار است که در مورد سهولت استفاده گام بزرگی رو به جلو برمیداریم
گروه فناوری- شرکت «اوپنایآی» مدل هوش مصنوعی «GPT-4o» را معرفی کرد که یک مدل کاملا جدید از هوش مصنوعی این شرکت است که به گفته اوپنایآی یک گام به تعامل بسیار طبیعیتر میان انسان و رایانه نزدیکتر شده است.
«GPT-4o» نسخه اصلاحشده مدل زبانی «GPT-4» است که به عنوان قلب تپنده چتبات معروف ChatGPTعمل میکند. حرف o در عبارت «GPT-4o» مخفف Omni به معنی عالمگیر یا جهانی است. این مدل در اختیار تمام کاربران شامل کاربران سرویس رایگان و پولی این شرکت قرار میگیرد. قابلیتهای متن و تصویر این مدل برای همه کاربران عرضه میشود، اما قابلیت جدید Voice Mode آن ابتدا به صورت آلفا از هفتههای آینده برای کاربران ChatGPT Plus در دسترس قرار خواهد گرفت و بعد به مرحله انتشار گستردهتر میرود. «میرا موراتی» مدیر ارشد فناوری شرکت اوپنایآی در پخش زنده معرفی این مدل جدید گفت: نکته ویژه در مورد «GPT-4o» این است که هوش سطح «GPT-4» برای همه، از جمله کاربران رایگان ما در دسترس قرار گرفته است. این اولین بار است که در مورد سهولت استفاده گام بزرگی رو به جلو برمیداریم.
در بخشی از مراسم OpenAI شاهد عملکرد حیرتانگیز «GPT-4o» در حل مسائل ریاضی و حتی درک لحن حرف زدن کاربر بودیم. قابلیت صوتی جدید «GPT-4o»کاملا به احساسات کاربر واکنش نشان میدهد و با لحنی صمیمی مشغول صحبت کردن و حتی داستان گفتن میشود. سم آلتمن، مدیرعامل OpenAI، اعلام کرد که مدل«GPT-4o» به صورت ذاتی، چند حالته است. این یعنی مدل جدید میتواند افزونبر متن، محتواهای صوتی و تصویری را تولید کند و بفهمد.
اوپنایآی در طول معرفی این مدل نشان داد که به صورت زنده بین انگلیسی و ایتالیایی ترجمه میکند، با توانایی درک بصری به یک پژوهشگر کمک میکند تا یک معادله خطی را در لحظه روی کاغذ حل کند و تنها با گوش دادن به نفسهای یکی از مدیران اوپنایآی درباره تنفس عمیق به او راهنمایی میدهد. اوپنایآی گفت که «GPT-4o» با متن، تصویر و صدا آموزش داده شده است، به این معنی که تمام ورودیها و خروجیها توسط یک شبکه عصبی پردازش میشوند. این با مدلهای قبلی این شرکت شامل «GPT-3.5» و «GPT-4» متفاوت است که به کاربران اجازه میدادند تنها با صحبت کردن سوال بپرسند، اما سپس سخنان را به متن تبدیل میکردند. این موجب میشد لحن و احساسات از بین برود و تعاملات کندتر شود. معرفی مدل جدید اوپنایآی یک روز قبل از برگزاری رویداد گوگل I/O که کنفرانس سالانه توسعهدهندگان این شرکت است، انجام شد.
گفتنی است مدت کوتاهی پس از اینکه اوپنایآی «GPT-4o» را معرفی کرد، گوگل نیز نسخهای از هوش مصنوعی خود موسوم به «جمینای» را با قابلیتهای مشابه به نمایش گذاشت. در حالی که مدل«GPT-4» در وظایف مربوط به تجزیه و تحلیل تصاویر و متن برتر بود، مدل «GPT-4o» پردازش گفتار را ادغام میکند و طیف قابلیتهای آن را گسترش میدهد.
تعامل طبیعی انسان و رایانه
طبق گفته اوپنایآی، مدل
«GPT-4o»گامی به سوی تعامل بسیار طبیعیتر انسان و رایانه است که هر ترکیبی از متن، صدا و تصویر را به عنوان ورودی میپذیرد و هر ترکیبی از متن، صدا و تصویر را تولید میکند. این مدل میتواند به ورودیهای صوتی در کمتر از ۲۳۲میلیثانیه و با میانگین سرعت ۳۲۰میلیثانیه پاسخ دهد که مشابه زمان پاسخدهی انسانها در مکالمه است. این مدل عملکرد مدل
«GPT-4 Turbo » روی متن زبان انگلیسی و کد را با بهبود قابل توجهی در تبدیل متن به زبانهای غیرانگلیسی مطابقت میدهد، در حالی که در واسطه برنامهنویسی کاربردی(API) بسیار سریعتر و ۵۰درصد ارزانتر است.
مدل «GPT-4o» به ویژه در درک تصویری و صوتی در مقایسه با مدلهای موجود بهتر است.
معرفی این مدل دقیقا چه معنایی برای کاربران دارد؟
مدل «GPT-4o» به طور قابل توجهی تجربه ChatGPT را که روبات گفتوگوگر هوش مصنوعی بسیار محبوب اوپنایآی است، افزایش میدهد. کاربران اکنون میتوانند مانند یک دستیار شخصی با ChatGPT تعامل داشته باشند، از آن سوال بپرسند و حتی آن را در هر جای دلخواه قطع کنند. علاوه بر این، همانطور که گفته شد اوپنایآی نسخه دسکتاپ ChatGPT را در کنار یک رابط کاربری اصلاح شده، معرفی میکند.
«موراتی» تاکید کرد: ما پیچیدگی فزاینده این مدلها را تشخیص میدهیم، اما هدف ما این است که تجربه تعامل را بصریتر و یکپارچهتر کنیم. میخواهیم کاربران به جای اینکه حواسشان به رابط کاربری پرت شود، روی همکاری با GPT تمرکز کنند. مدل جدید ما میتواند متن، صدا و ویدئو را در لحظه استدلال کند. این مدل همهکاره بوده، کار با آن سرگرمکننده است و گامی به سوی شکل بسیار طبیعیتر تعامل انسان و رایانه و حتی تعامل انسان-رایانه-رایانه است. مدل «GPT-4o» با بیش از ۷۰ متخصص در حوزههایی مانند روانشناسی اجتماعی، سوءگیری و انصاف و اطلاعات نادرست برای شناسایی خطراتی که با روشهای جدید اضافه شده معرفی یا تقویت میشود، تحت بررسی گستردهای قرار گرفته است. اوپنایآی از این یادگیریها برای ایجاد مداخلات ایمنی به منظور بهبود ایمنی تعامل با
«GPT-4o» استفاده کرده است.
اعضای تیم اوپنایآی در معرفی عمومی این مدل جدید، مهارت صوتی آن را به نمایش گذاشتند. یک پژوهشگر به نام «مارک چن» بر توانایی آن در سنجش احساسات تاکید و به سازگاری آن با وقفههای کاربر اشاره کرد. «چن» تطبیقپذیری این مدل را با درخواست یک داستان قبل از خواب با لحنهای متنوع، از دراماتیک تا روباتیک نشان داد و حتی از آن خواست که آن را برایش بخواند. «سام آلتمن» مدیرعامل اوپنایآی گفت: این برای ما مهم است، چراکه میخواهیم ابزارهای هوش مصنوعی عالی را در دسترس همگان قرار دهیم.
بازار قوی برای هوش مصنوعی مولد
شرکت «اوپنایآی» در کنار «مایکروسافت» و «گوگل» در حوزه هوش مصنوعی مولد پیشتاز است، زیرا شرکتها در بخشهای مختلف عجله دارند تا چتباتها یا روباتهای گفتوگوگر مبتنی بر هوش مصنوعی خود را در خدمات خود ادغام کنند تا رقابتی باقی بمانند. به عنوان مثال شرکت «آنتروپیک» که رقیب اوپنایآی محسوب میشود، به تازگی از اولین پیشنهاد سازمانی خود به شرکت اپل برای ارائه یک برنامه رایگان برای گوشیهای آیفون پرده برداشت.
اوپنایآی در بیانیهای گفت: متوجهایم که ارائههای صوتی«GPT-4o» خطرات جدیدی را به همراه دارد. امروز ورودیهای متن و تصویر و خروجی متن را به صورت عمومی منتشر میکنیم و در هفتهها و ماههای آینده روی زیرساختهای فنی، قابلیت استفاده پس از آموزش و ایمنی لازم برای انتشار سایر روشها کار خواهیم کرد. به عنوان مثال هنگام راهاندازی، خروجیهای صوتی به مجموعهای از صداهای از پیش تعیین شده محدود میشوند و از سیاستهای ایمنی موجود ما تبعیت میکنند. ما جزئیات بیشتری را در مورد طیف کامل روشهای
«GPT-4o»در سیستم آینده به اشتراک خواهیم گذاشت. بر این اساس بازار هوش مصنوعی مولد نیز شاهد سرمایهگذاری خیرهکننده ۱/۲۹میلیارد دلاری در نزدیک به ۷۰۰معامله در سال ۲۰۲۳ بود که بیش از ۲۶۰درصد نسبت به سال قبل افزایش داشت. پیشبینیها حاکی از آن است که بازدهی این بازار در دهه آینده از یک تریلیون دلار فراتر رود. با این حال، نگرانیها در مورد استقرار سریع خدمات آزمایشنشده توسط دانشگاهیان و اخلاقگراهایی که از پتانسیل این فناوری برای تداوم تعصبات مشکل دارند، وجود دارد.
چتبات ChatGPT از زمان راهاندازی در نوامبر ۲۰۲۲ رکوردهایی را به عنوان سریعترین رشد مصرفکننده در تاریخ شکسته است و تقریبا ۱۰۰میلیون کاربر فعال هفتگی دارد. اوپنایآی گزارش میدهد که بیش از ۹۲درصد از ۵۰۰شرکت برتر دنیا از آن استفاده میکنند.
در رویداد معرفی این مدل موراتی به پاسخ به برخی از سوالات مخاطبان پرداخت و وقتی او به زبان ایتالیایی روان صحبت کرد و هوش مصنوعی صحبتهای وی را به انگلیسی ترجمه کرد، سالن مملو از شور و هیجان شد. اطلاعات بیشتری نیز وجود دارد. این یعنی دفعه بعد که سلفی میگیرید، هوش مصنوعی اوپنایآی میتواند احساسات دقیق شما را ارزیابی کند. تنها کاری که باید انجام دهید این است که یک عکس سلفی را انتخاب کنید و از ChatGPT بخواهید که احساس شما را مشخص کند. گفتنی است عوامل شرکت اوپنایآی آنقدر خوشحال بودند که ChatGPT از آنها دلیل خوشحالی شدیدشان را جویا شد!
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد