هوش مصنوعی هنوز حریف ریاضیدانان برتر نمی‌شود

هوش مصنوعی تا این مدت حریف ریاضیدانان برتر نمی‌شود_آینده


به گزارش آینده

هوش مصنوعی دقیق‌ترین آزمون ریاضی خود را تا بحال پشت سر گذاشته است. نتایج آماده است و مدل‌های هوش مصنوعی که در آن شرکت کردند، به توانایی‌های حل قضیه ریاضیدانان برتر نرسیدند.

به نقل از نیچر، این آزمون بخشی از پروژه‌ای به نام First Proof به معنی اثبات اول است که مقصد از آن برسی توانایی هوش مصنوعی در حل سوالات پیچیده در ریاضیات است. ۱۰ قضیه ریاضی در سطح تحقیق برای چهار سیستم هوش مصنوعی نقل شد. سپس هیئت منصفه‌ای از متخصصان انسانی ناشناس در عرصه‌های ریاضی وابسته، جواب‌های مدل‌ها را برسی کردند. این آزمون اولین آزمون از نوع خود می بود که به طور همزمان سه شرط کلیدی را برآورده می‌کرد: اول، شامل سوالات ریاضی در سطح تحقیق می بود؛ دوم، شامل مسائلی می بود که در داده‌های آموزشی ظاهر نشده بودند و سوم، به طور رسمی توسط ریاضیدانان درجه‌بندی شده می بود.

این یافته‌ها بعد از پیشرفت‌های تازه هوش مصنوعی در حل مسائل ریاضی رخ داده است. برای مثال، ماه قبل، یک چت‌بات ساخته شده توسط شرکت فناوری اوپن ای‌آی در سانفرانسیسکو، کالیفرنیا، یک چالش ریاضی ۸۰ ساله را که توسط ریاضیدان فقید، پاول اردوش، نقل شده می بود، حل کرد. گروه فرست پروف می‌گوید که تکرارهای آینده این آزمون می‌تواند به محققان پشتیبانی کند تا قضاوت کنند که مدل‌های هوش مصنوعی چه مقدار می‌توانند به گفتن مثال، در حل خودکار مسائل، بازدید اثبات‌ها یا ایفای نقش دستیاران تحقیق برای ریاضیدانان سودمند باشند.

یکی از نوآوری‌های مهم آزمون فرست پروف این می بود که سوالات قبلا در هیچ کجای مقالات انتشار شده یا در اینترنت ذکر نشده بودند و این خطر را که مدل‌ها به سادگی اطلاعاتی را که در طول آموزش خود آموخته‌اند، تکرار کنند، از بین می‌برد. در عوض، ۱۰ محقق از طیف گسترده‌ای از تخصص‌های ریاضی، هر کدام سوالی را اراعه دادند که در جریان تحقیقات خود حل کرده بودند، اما تا این مدت انتشار نکرده بودند.

فرست پروف در ماه فوریه یک آزمون آزمایشی با دسته‌ای متفاوت از مسائل تازه برگزار کرد. در آن دور، هر فردی می‌توانست سیستم‌های هوش مصنوعی مورد علاقه خود را روی مسائل امتحان کند و تعداد بسیاری از گروه‌ها این کار را انجام دادند اما نتایج به طور رسمی قبول نشد. این چنین هیچ راهی برای بازدید جدا گانه این که هوش مصنوعی کمکی از انسان‌ها دریافت نکرده است یا خیر، وجود نداشت. این بار، فرست پروف خودش آزمایش را اجرا کرد: گروه از مدل‌ها خواست تا مسائل را به روشی کاملاً خودکار حل کنند و گروهی متشکل از ۳۰ ریاضیدان برای بازدید جواب‌ها به کار گرفته شدند. جرمی آویگاد، ریاضیدان و رئیس موسسه استدلال به پشتیبانی رایانه در ریاضیات در دانشگاه کارنگی ملون در پیتسبورگ، پنسیلوانیا، می‌گوید: برگزارکنندگان به وضوح با دقت بیشتری به دسته دوم فکر کرده‌اند تا آن را کنترل‌شده‌تر و سیستماتیک‌تر کنند.

قانون دیگر این می بود که مدل‌های شرکت‌کننده باید در دسترس عموم باشند. این بدان معنی می بود که Aletheia گوگل که سیستمی است که به طور خاص برای حل مسائل ریاضی طراحی شده است و نسخه کامل و انتشار نشده  Claude Mythos، مدلی که توسط آنتروپیک در سانفرانسیسکو، کالیفرنیا ساخته شده است، قابل منفعت گیری نبودند. اوپن ای‌آی تنها شرکت بزرگی می بود که با مدل ChatGPT ۵.۵ Pro خود در این آزمایش شرکت کرد.

سیستم‌های دیگر توسط سه گروه دانشگاهی، از دانشگاه کالیفرنیا، لس‌آنجلس (UCLA،  دانشگاه پرینستون در نیوجرسی و موسسه فناوری فدرال سوئیس (ETH) در زوریخ اراعه شدند. هر سه دانشگاه، «مهارهایی» بر روی چت‌بات‌های حاضر، همانند  چت جی‌پی‌تی، جمینای گوگل و نسخه عمومی کلاود آنتروپیک ساختند. مهار، سیستمی خودکار است که از یک چت‌بات سوالی می‌پرسد و جواب آن توسط یک چت‌بات دیگر، زیاد تر با رفت و برگشت‌های مکرر، بازدید می‌شود.

نتایج ریاضی

تازه‌ترین اخبار و تحلیل‌ها درباره انتخابات، سیاست، اقتصاد، ورزش، حوادث، فرهنگ وهنر و گردشگری را در آینده دنبال کنید.

مدل تیم موسسه فناوری فدرال سوئیس بهترین کارکرد را داشت و ۶ از ۱۰ قضیه را با سیستمی حل کرد که در آن جواب‌های چت جی‌پی‌تی توسط یک «شورای مشورتی» متشکل از هر سه چت‌بات مهم بازدید شده یا بهبود یافته می بود. تیم دانشگاه کالیفرنیا، لس‌آنجلس که یک مهار بر روی چت جی‌پی‌تی ساخته می بود، دومین تیم برتر می بود و بعد از آن تیم چت جی‌پی‌تی اوپن ای‌آی بدون مهار و پرینستون مهاره‌ای که عمدتا از Gemini ۳.۱ Pro به گفتن پشتیبان خود منفعت گیری می‌کند، قرار گرفتند.

یوهانس اشمیت، ریاضیدانی که عضوی از تیم موسسه فناوری فدرال سوئیس می بود، می‌گوید که برای تنظیم دقیق سیستم خود قبل از مسابقه، او و همکارانش با جامعه ریاضی گسترده‌تر تماس گرفتند و از آنها مسائل را خواست کردند. جواب شگفت‌انگیز می بود: ظرف چند روز، ۳۰ قضیه ارسالی از حوزه‌های گوناگون ریاضیات دریافت کردیم و مردم زیاد کنجکاو و روشنفکر بودند.

لورن ویلیامز، ریاضیدان دانشگاه هاروارد در کمبریج، ماساچوست و عضو تیم فرست پروف، می‌گوید: اشکار نیست که آیا مسائل حل نشده لزوما سخت‌تر از بقیه بوده‌اند یا خیر. او می‌افزاید: من فکر می‌کنم مسائلی که حل نشده بودند، چه از نظر نوشته و چه از نظر ایده‌های اثبات، از چیزهایی که قبلا در مقالات علمی آمده بودند، دورتر بودند.

مدل‌های استدلال این چنین مستعد توهم یا تشکیل خروجی‌های واقعا نادرست بودند، حتی وقتی که صریحا به آنها حرف های می‌شد که منبع های خود را بازدید کنند که مشکلی شناخته شده در مدل‌های زبانی بزرگ است.

ویلیامز می‌گوید که از کمبود «شدید» استناد در همه جواب‌های مدل‌های هوش مصنوعی شگفت‌زده شده است به اختصاصی در رابطه قضیه ۲، که چندین مدل با اقتباس از روشی که یک قضیه شبیه در قبل توسط انسان‌ها حل شده می بود، آن را حل کردند. چندین راه حل، در برخی موارد، کپی کردن عبارات از مقاله قبلی به طور خط به خط و منفعت گیری مجدد از نمادگذاری‌ها و واژگان دقیق می بود، اما هیچ زمان به آن مقاله در هیچ کجا استناد نکردند.

اکنون که مسائل فرست پروف انتشار شده‌اند، شرکت‌هایی که رسما در آن شرکت نکرده‌اند، به گمان زیاد از آنها برای آزمایش غیررسمی سیستم‌های خود منفعت گیری خواهند کرد. کوین بارتو، ریاضیدان دانشگاه کمبریج انگلستان که معیارهای ریاضی غیررسمی خود را برای هوش مصنوعی اجرا کرده است، می‌گوید: شخصا از دیدن مدل‌های داخلی آزمایش‌ شده از سه آزمایشگاه لذت می‌بردم، فقط برای این که ببینم مرز واقعی اکنون کجاست.

دسته بندی مطالب
اخبار کسب وکارها

خبرهای ورزشی

خبرهای اقتصادی

اخبار فرهنگی

اخبار تکنولوژی

اخبار پزشکی