هوش مصنوعی تا این مدت حریف ریاضیدانان برتر نمیشود_آینده
به گزارش آینده
هوش مصنوعی دقیقترین آزمون ریاضی خود را تا بحال پشت سر گذاشته است. نتایج آماده است و مدلهای هوش مصنوعی که در آن شرکت کردند، به تواناییهای حل قضیه ریاضیدانان برتر نرسیدند.
به نقل از نیچر، این آزمون بخشی از پروژهای به نام First Proof به معنی اثبات اول است که مقصد از آن برسی توانایی هوش مصنوعی در حل سوالات پیچیده در ریاضیات است. ۱۰ قضیه ریاضی در سطح تحقیق برای چهار سیستم هوش مصنوعی نقل شد. سپس هیئت منصفهای از متخصصان انسانی ناشناس در عرصههای ریاضی وابسته، جوابهای مدلها را برسی کردند. این آزمون اولین آزمون از نوع خود می بود که به طور همزمان سه شرط کلیدی را برآورده میکرد: اول، شامل سوالات ریاضی در سطح تحقیق می بود؛ دوم، شامل مسائلی می بود که در دادههای آموزشی ظاهر نشده بودند و سوم، به طور رسمی توسط ریاضیدانان درجهبندی شده می بود.
این یافتهها بعد از پیشرفتهای تازه هوش مصنوعی در حل مسائل ریاضی رخ داده است. برای مثال، ماه قبل، یک چتبات ساخته شده توسط شرکت فناوری اوپن ایآی در سانفرانسیسکو، کالیفرنیا، یک چالش ریاضی ۸۰ ساله را که توسط ریاضیدان فقید، پاول اردوش، نقل شده می بود، حل کرد. گروه فرست پروف میگوید که تکرارهای آینده این آزمون میتواند به محققان پشتیبانی کند تا قضاوت کنند که مدلهای هوش مصنوعی چه مقدار میتوانند به گفتن مثال، در حل خودکار مسائل، بازدید اثباتها یا ایفای نقش دستیاران تحقیق برای ریاضیدانان سودمند باشند.
یکی از نوآوریهای مهم آزمون فرست پروف این می بود که سوالات قبلا در هیچ کجای مقالات انتشار شده یا در اینترنت ذکر نشده بودند و این خطر را که مدلها به سادگی اطلاعاتی را که در طول آموزش خود آموختهاند، تکرار کنند، از بین میبرد. در عوض، ۱۰ محقق از طیف گستردهای از تخصصهای ریاضی، هر کدام سوالی را اراعه دادند که در جریان تحقیقات خود حل کرده بودند، اما تا این مدت انتشار نکرده بودند.
فرست پروف در ماه فوریه یک آزمون آزمایشی با دستهای متفاوت از مسائل تازه برگزار کرد. در آن دور، هر فردی میتوانست سیستمهای هوش مصنوعی مورد علاقه خود را روی مسائل امتحان کند و تعداد بسیاری از گروهها این کار را انجام دادند اما نتایج به طور رسمی قبول نشد. این چنین هیچ راهی برای بازدید جدا گانه این که هوش مصنوعی کمکی از انسانها دریافت نکرده است یا خیر، وجود نداشت. این بار، فرست پروف خودش آزمایش را اجرا کرد: گروه از مدلها خواست تا مسائل را به روشی کاملاً خودکار حل کنند و گروهی متشکل از ۳۰ ریاضیدان برای بازدید جوابها به کار گرفته شدند. جرمی آویگاد، ریاضیدان و رئیس موسسه استدلال به پشتیبانی رایانه در ریاضیات در دانشگاه کارنگی ملون در پیتسبورگ، پنسیلوانیا، میگوید: برگزارکنندگان به وضوح با دقت بیشتری به دسته دوم فکر کردهاند تا آن را کنترلشدهتر و سیستماتیکتر کنند.
قانون دیگر این می بود که مدلهای شرکتکننده باید در دسترس عموم باشند. این بدان معنی می بود که Aletheia گوگل که سیستمی است که به طور خاص برای حل مسائل ریاضی طراحی شده است و نسخه کامل و انتشار نشده Claude Mythos، مدلی که توسط آنتروپیک در سانفرانسیسکو، کالیفرنیا ساخته شده است، قابل منفعت گیری نبودند. اوپن ایآی تنها شرکت بزرگی می بود که با مدل ChatGPT ۵.۵ Pro خود در این آزمایش شرکت کرد.
سیستمهای دیگر توسط سه گروه دانشگاهی، از دانشگاه کالیفرنیا، لسآنجلس (UCLA، دانشگاه پرینستون در نیوجرسی و موسسه فناوری فدرال سوئیس (ETH) در زوریخ اراعه شدند. هر سه دانشگاه، «مهارهایی» بر روی چتباتهای حاضر، همانند چت جیپیتی، جمینای گوگل و نسخه عمومی کلاود آنتروپیک ساختند. مهار، سیستمی خودکار است که از یک چتبات سوالی میپرسد و جواب آن توسط یک چتبات دیگر، زیاد تر با رفت و برگشتهای مکرر، بازدید میشود.
نتایج ریاضی
مدل تیم موسسه فناوری فدرال سوئیس بهترین کارکرد را داشت و ۶ از ۱۰ قضیه را با سیستمی حل کرد که در آن جوابهای چت جیپیتی توسط یک «شورای مشورتی» متشکل از هر سه چتبات مهم بازدید شده یا بهبود یافته می بود. تیم دانشگاه کالیفرنیا، لسآنجلس که یک مهار بر روی چت جیپیتی ساخته می بود، دومین تیم برتر می بود و بعد از آن تیم چت جیپیتی اوپن ایآی بدون مهار و پرینستون مهارهای که عمدتا از Gemini ۳.۱ Pro به گفتن پشتیبان خود منفعت گیری میکند، قرار گرفتند.
یوهانس اشمیت، ریاضیدانی که عضوی از تیم موسسه فناوری فدرال سوئیس می بود، میگوید که برای تنظیم دقیق سیستم خود قبل از مسابقه، او و همکارانش با جامعه ریاضی گستردهتر تماس گرفتند و از آنها مسائل را خواست کردند. جواب شگفتانگیز می بود: ظرف چند روز، ۳۰ قضیه ارسالی از حوزههای گوناگون ریاضیات دریافت کردیم و مردم زیاد کنجکاو و روشنفکر بودند.
لورن ویلیامز، ریاضیدان دانشگاه هاروارد در کمبریج، ماساچوست و عضو تیم فرست پروف، میگوید: اشکار نیست که آیا مسائل حل نشده لزوما سختتر از بقیه بودهاند یا خیر. او میافزاید: من فکر میکنم مسائلی که حل نشده بودند، چه از نظر نوشته و چه از نظر ایدههای اثبات، از چیزهایی که قبلا در مقالات علمی آمده بودند، دورتر بودند.
مدلهای استدلال این چنین مستعد توهم یا تشکیل خروجیهای واقعا نادرست بودند، حتی وقتی که صریحا به آنها حرف های میشد که منبع های خود را بازدید کنند که مشکلی شناخته شده در مدلهای زبانی بزرگ است.
ویلیامز میگوید که از کمبود «شدید» استناد در همه جوابهای مدلهای هوش مصنوعی شگفتزده شده است به اختصاصی در رابطه قضیه ۲، که چندین مدل با اقتباس از روشی که یک قضیه شبیه در قبل توسط انسانها حل شده می بود، آن را حل کردند. چندین راه حل، در برخی موارد، کپی کردن عبارات از مقاله قبلی به طور خط به خط و منفعت گیری مجدد از نمادگذاریها و واژگان دقیق می بود، اما هیچ زمان به آن مقاله در هیچ کجا استناد نکردند.
اکنون که مسائل فرست پروف انتشار شدهاند، شرکتهایی که رسما در آن شرکت نکردهاند، به گمان زیاد از آنها برای آزمایش غیررسمی سیستمهای خود منفعت گیری خواهند کرد. کوین بارتو، ریاضیدان دانشگاه کمبریج انگلستان که معیارهای ریاضی غیررسمی خود را برای هوش مصنوعی اجرا کرده است، میگوید: شخصا از دیدن مدلهای داخلی آزمایش شده از سه آزمایشگاه لذت میبردم، فقط برای این که ببینم مرز واقعی اکنون کجاست.
دسته بندی مطالب
اخبار کسب وکارها