Operai استدلال جدید O3-Mini را در روز جمعه ، جوانترین عضو الگوی استدلال شرکت ارائه داد.
اوپادای در ماه دسامبر ، برای اولین بار پیش نمایش مدل را با یک سیستم O3 قدرتمندتر ارائه داد ، اما اکنون این مدل در یک لحظه کلیدی برای شرکت در دسترس است. در حالی که اهداف و چالش های اوپای روز به روز افزایش می یابد.
مدل استدلال جدید O3-Mini ؛ قدرتمند و مقرون به صرفه
Operai مدل جدید خود را “قدرتمند” و “مقرون به صرفه” توصیف کرده است. سخنگوی یک شرکت در مصاحبه با TechCrunch گفت:
“عرضه امروز گام مهمی برای گسترش دسترسی به هوش مصنوعی پیشرفته با مأموریت ما است.”
طبق گفته Takrato ذکر شده توسط تکنیکبر خلاف اکثر مدل های بزرگ زبان ، مدل های جدید استدلال O3-Mini با دقت نتایج خود را با دقت بررسی می کنند. این روش به جلوگیری از برخی از مشکلاتی که مدل های زبان به طور کلی ایجاد می کنند ، کمک می کند. اگرچه این مدل ها برای یافتن راه حل ها کمی بیشتر طول می کشد ، اما در مناطقی مانند فیزیک دقیق تر هستند ، اگرچه کامل نیستند.
O3-Mini به طور خاص برای حل مشکلات STEM (علوم ، فناوری ، مهندسی و ریاضیات) پیکربندی شده و در برنامه نویسی ، ریاضیات و علوم به خوبی کار می کند. Operai اظهار داشت که این مدل تقریباً با مدل های قبلی O1 و O1-Mini همزمان است ، اما سریعتر کار می کند و ارزان تر است.
طبق گفته OpenAI ، آزمایش کنندگان خارجی پاسخ های O3-Mini به O1-Mini را در بیش از نیمی از موارد ترجیح داده اند. علاوه بر این ، این مدل کمتر از 39 ٪ کمتر از سؤالات پیچیده واقعی اشتباه دارد ، در حالی که به 24 ٪ سریعتر پاسخ می دهد.
چگونه کاربران به O3-Mini دسترسی دارند
مدل O3-Mini در روز جمعه برای همه کاربران در دسترس است ، اما طرح های پولی Chatgpt Plus و Team می توانند از آن با محدودیت بالاتر (150 سؤال در روز) استفاده کنند.
علاوه بر این ، مشترکان ChatGPT PRO به آن دسترسی نامحدودی خواهند داشت. کاربران Chatgpt Enterprise و Chatgpt Edu همچنین می توانند هفته آینده از این مدل استفاده کنند ، اما اخبار هنوز در دولت چتپپ منتشر نشده است.
کاربران می توانند مدل O3-Mini را در منوی ChatGPT انتخاب کنند ، در حالی که کاربران رایگان می توانند دکمه جدید “دلیل” را در نوار مکالمه یا تولید مثل درخواست کنند.
علاوه بر این ، Operai روز جمعه O3-Mini را به چندین توسعه دهنده ارائه می دهد ، اما در ابتدا تجزیه و تحلیل تصاویر را نمی پذیرد. توسعه دهندگان می توانند تلاش “معقول” مدل را در سه سطح ، متوسط و زیاد تنظیم کنند تا تعادل مورد نظر خود را بین دقت و سرعت پردازش تعادل برقرار کنند.
قیمت ها و رقابت با Deepseek
هزینه O3-Mini در API به شرح زیر است:
- 0.55 دلار برای یک میلیون ورودی ورودی
- 4.40 دلار برای یک میلیون نشانه عزیمت
(یک میلیون توکن تقریباً 750،000 کلمه است).
قیمت 63 درصد ارزان تر از O1-Mini است و با مدل R1 Depseek در حال رقابت است. R1 برای ورودی ورودی 0.14 دلار و 2.19 دلار برای نشانه های خروجی قیمت دارد.
در ChatGPT ، سطح آرگومان O3-Mini به طور متوسط تنظیم می شود که طبق گفته OpenAI ، تعادل خوبی بین سرعت و دقت ایجاد می کند. کاربران طراحی پولی همچنین می توانند از نسخه “O3-Mini-High” استفاده کنند که پاسخ های دقیق تری ارائه می دهد ، اما با سرعت کمتری.
صرف نظر از انتخاب نسخه O3-Mini ، این مدل ممکن است پاسخ های به روز شده را به منابع معتبر ارائه دهد. البته Openai تأکید کرده است که این ویژگی هنوز در آزمایش است و در حال کار بر روی ادغام کامل خود با مدل های استدلال خود است.
عملکرد O3-Mini را با رقبا مقایسه کنید
O3-Mini قوی ترین مدل Operai در تاریخ نیست و در برخی از آزمایشات ، Deepseek R1 از آن پیشی می گیرد.
این مدل در آزمون AIME 2024 بهترین کار را انجام می دهد ، که توانایی درک و اجرای دستورالعمل های پیچیده را ارزیابی می کند ، اما فقط در سطح تلاش استدلال است. علاوه بر این ، در آزمون تأیید شده SWE-Bench ، که بر روی برنامه نویسی متمرکز است ، فقط با 0.1 امتیاز از R1 فراتر می رود. در سطح تلاش کم استدلال ، O3-Mini در آزمایش الماس GPQA ، که شامل سؤالات دکترا در زمینه های فیزیک ، زیست شناسی و شیمی است ، در پشت R1 به تأخیر می افتد.
با این حال ، O3-Mini در بسیاری موارد پاسخ دقیق و گران قیمت و زمان پردازش زمان را فراهم می کند. Operai عملکرد این مدل را در مقایسه با خانواده O1 توصیف می کند:
- با تلاش کم استدلال ، O3-Mini عملکردی شبیه به O1-Mini دارد.
- با یک تلاش استدلال متوسط ، O3-Mini به O1 نزدیک می شود ، اما سریعتر پاسخ می دهد.
- با یک تلاش استدلال بالا ، O3-Mini بهتر از مدل های O1 و O1-Mini کار می کند.
البته برتری O3-Mini در O1 در برخی مناطق ناچیز است. به عنوان مثال ، در آزمون AIME 2024 ، این مدل تنها 0.3 درصد بهتر از O1 در یک تلاش استدلال عالی است. علاوه بر این ، در الماس GPQA ، حتی در بالاترین سطح استدلال ، بیشتر از O1 نیست.
Operai اظهار داشت که O3-Mini امنیت ، سطح یا حتی ایمن تر از خانواده O1 است. این شرکت از روش “تعادل بازتاب” استفاده می کند ، که این مدل را در هنگام پاسخگویی به سیاست های امنیتی OpenAI تبدیل می کند. علاوه بر این ، Operai اعلام کرده است که O3-Mini بسیار بهتر از مدل پرچمدار شرکت در آزمایش های امنیتی و سوءاستفاده عمل کرده است.
ارسال نقد و بررسی