بنچمارک جدید OpenAI برای بررسی عملکرد هوش مصنوعی در وظایف واقعی

بنچمارک جدید OpenAI برای بررسی عملکرد هوش مصنوعی در وظایف واقعی

OpenAI با معرفی آزمون جدیدی که GDPval نام دارد، عملکرد مدل‌های هوش مصنوعی را در وظایف واقعی و شغلی بررسی کرده است. نتایج این آزمون نشان می‌دهد که GPT-5 و Claude Opus 4.1 به سطحی نزدیک شده‌اند که می‌توانند خروجی‌هایی مشابه متخصصان انسانی ارائه کنند.

براساس توضیحات این شرکت، GDPval شامل 1320 وظیفه واقعی از 44 شغل مختلف مانند مهندسی نرم‌افزار، وکالت و پرستاری می‌شود. این وظایف توسط گروهی از متخصصان با میانگین 14 سال تجربه کاری طراحی شده‌اند. همچنین از یک نقشه مهندسی گرفته تا لایحه حقوقی و طرحی برای مراقبت‌های پرستاری، فرمت خروجی مدل‌ها می‌تواند متفاوت باشد.

OpenAI تأکید کرده که برخلاف بنچمارک‌های متداول که اغلب ماهیت آکادمیک دارند، GDPval مدل‌ها را با فایل‌ها و ارائه‌های چندرسانه‌ای مانند اسلاید و اسناد به چالش می‌کشد. با این کار، غول هوش مصنوعی تلاش کرده تا وظایف مدل‌ها را به وظایف یک نیروی کار واقعی نزدیک‌تر کند.

در این آزمون مدل‌های GPT-5 ،o3 ،o4-mini و GPT-4o از OpenAI به همراه Claude Opus 4.1 از آنتروپیک، جمینای 2.5 پرو گوگل و Grok 4 از xAI بررسی شده‌اند. سپس عملکرد آنها توسط کارشناسان ارزیابی شده است.

عملکرد مدل‌های هوش مصنوعی در بنچمارک جدید OpenAI

نتایج نشان داده که Claude Opus 4.1 بهترین عملکرد را از نظر زیبایی‌شناسی و ظاهر خروجی‌ها مثل چیدمان اسلایدها و قالب‌بندی اسناد داشت. در مقابل، GPT-5 بیشترین دقت را در یافتن اطلاعات تخصصی و صحت اطلاعات نشان داده است. OpenAI همچنین اعلام کرده که توانایی مدل‌ها از زمان انتشار GPT-4o در بهار 2024 تا GPT-5 در تابستان 2025 بیش از دو برابر شده است.

یکی از نکات قابل توجه، صرفه‌جویی در زمان و هزینه است. به گفته OpenAI، مدل‌های پیشرفته می‌توانند وظایف GDPval را حدود 100 برابر سریع‌تر و 100 برابر ارزان‌تر از متخصصان انسانی انجام دهند. البته این آمار فقط مربوط به زمان پردازش و هزینه API است و مراحل مهمی مانند نظارت انسانی، اصلاح و ادغام در پروژه‌ها را در نظر نمی‌گیرد.

بااین‌حال، OpenAI می‌گوید که GDPval هنوز محدودیت‌هایی دارد. این آزمون تنها یک‌بار خروجی‌ها را بررسی می‌کند و نمی‌تواند توانایی مدل‌ها در ساخت چند پیش‌نویس یا مدیریت پروژه‌های طولانی‌مدت را بررسی کند. همچنین در دنیای واقعی بسیاری از وظایف به‌صورت مبهم یا با شرایط درحال تغییر تعریف می‌شوند، درحالی‌که GDPval بیشتر بر وظایف شفاف و مشخص تمرکز دارد.

OpenAI در جمع‌بندی خود تأکید کرده که با وجود تمام این محدودیت‌ها، نتایج نشان می‌دهد مدل‌های هوش مصنوعی درحال رسیدن به سطحی هستند که می‌توانند بخش بزرگی از وظایف کاری را برعهده بگیرند و این امر باعث می‌شود نیروی انسانی زمان بیشتری برای فعالیت‌های پیچیده‌تر داشته باشد.

این شرکت اعلام کرده قصد دارد نسخه‌های بعدی GDPval را به حوزه‌های بیشتری از صنایع گسترش دهد و وظایف دشوارتر و تعاملی‌تری را در آن بگنجاند.

برچسب ها :
Picture of هاریکا

هاریکا

هاریکا، به‌عنوان مجله‌ای نوآوری و مدرن در دنیای تکنولوژی، فعالیت خود را با هدف ارائه دقیق‌ترین و به‌روزترین اخبار، تحلیل‌ها و بررسی‌های فناوری آغاز کرده است. ما باور داریم که تکنولوژی فراتر از یک ابزار است؛ این یک سبک زندگی است که هر روز، جنبه‌های مختلف زندگی ما را دگرگون می‌کند. هاریکا، از ترکیب شور و تخصص در دنیای دیجیتال متولد شده است. تیم ما شامل گروهی از نویسندگان، تحلیل‌گران و علاقه‌مندان به فناوری است که هدفشان ارائه محتوایی جذاب، قابل اعتماد و کاربرپسند به شماست.

مقالات مرتبط

ربات‌ها با هوش مصنوعی جدید گوگل می‌توانند در اینترنت جستجو کنند + ویدیو

آزمایشگاه هوش مصنوعی دیپ‌مایند (DeepMind) متعلق به گوگل از مدل‌های هوش مصنوعی…

1404-07-05

ابزار هوش مصنوعی Audio2Face انویدیا رایگان شد + ویدیو

انویدیا ابزار هوش مصنوعی Audio2Face را به‌صورت متن‌باز و رایگان در اختیار…

1404-07-05

قابلیت ChatGPT Pulse معرفی شد؛ روزتان را با پیشنهادهای ChatGPT شروع کنید

OpenAI قابلیت جدیدی به نام ChatGPT Pulse معرفی کرد که طبق فعالیت‌های…

1404-07-04