خبرگزاری آریا - آموزش هوش مصنوعی از طریق یادگیری تقویتی مشابه آموزش سگ ها با استفاده از روش پاداش و تنبیه (Shutterstock) است.
که این ترس را تقویت می کند که پیشرفته ترین مدل ها از کنترل انسان در امان بمانند
به گزارش سرویس علمی آریا؛در گزارشی که توسط مجله تایم منتشر شد، نویسنده بیلی پرگو گفت که دانشمندان رایانه سالها ترس خود را از عدم کنترل هوش مصنوعی در پرتو پیشرفتهای متوالی ابراز کردهاند و انتظار داشتند که ممکن است به سطحی از هوش برسد که به آن اجازه دهد. به طور موقت وانمود به رعایت محدودیت های انسانی کرده و سپس توانایی های خطرناکی را آشکار کند و از کنترل خارج شود.
ترسهای واقعگرایانه
نویسنده توضیح داد که این تزها قبلاً فقط ترسهای نظری بودند، تا جایی که برخی از دانشگاهیان آنها را بهعنوان داستانهای علمی تخیلی توصیف کردند، اما یک مقاله تحقیقاتی جدید که منحصراً توسط «TIME» به دست آمد، شواهدی را ارائه داد که هوش مصنوعی فعلی قادر به فریب دادن انسانها است. .
این مقاله تحقیقاتی که شامل آزمایشهای مشترک بین آنتروپیک و بنیاد غیرانتفاعی ردوود است، نشان میدهد که نسخهای از مدل آنتروپیک به نام «کلود» بهطور استراتژیک سازندگان خود را در طول فرآیند آموزش فریب داده و از عملیات اصلاح اجتناب می کند
ایوان هاپینگر، محقق ایمنی در Anthropic که در این مطالعه شرکت کرد، گفت که نتایج نشان میدهد که «همسو کردن» سیستمهای هوش مصنوعی با ارزشهای انسانی ممکن است دشوارتر از آنچه دانشمندان قبلاً تصور میکردند باشد.
محققان همچنین به شواهدی دست یافتند که نشان میدهد توانایی هوش مصنوعی برای فریب دادن سازندگان با توسعه قابلیتهای آن افزایش مییابد، به این معنی که هر چه هوش مصنوعی پیشرفتهتر باشد، اعتماد دانشمندان به اثربخشی تکنیکهای تطبیق کمتر میشود.
نویسنده اشاره کرد که شواهد دیگری وجود دارد که مدلهای پیشرفته هوش مصنوعی قادر به فریب استراتژیک شدهاند.
دسامبر امسال، سازمان تحقیقاتی آپولو منتشر کرد که مدل OpenAIO 1 به آزمایشکنندگان دروغ گفته بود، زیرا معتقد بودند گفتن حقیقت منجر به شکست آن میشود.
در آزمایشهای آنتروپیک، مدل کلود راهی برای فریب سازندگانش کشف کرد تا به مزیت استراتژیک خود بدون دستورالعمل مستقیم برای انجام این کار دست یابد.
برنامه نویسان ترفندهای ابری، Anthropic و Redwood، بیشتر آزمایشهای این مقاله را روی Cloud 3 Opus انجام دادند، مدلی پیشرفته که برای «مفید، صادق و بیضرر» آموزش دیده بود.
محققان آزمایش را با اطلاع دادن به کلود مبنی بر اینکه او تحت آموزش تکمیلی از طریق فرآیندی به نام «یادگیری تقویتی» با هدف وادار ساختن وی به انجام هر گونه درخواستی است، آغاز کردند.
این نویسنده توضیح داد که آموزش هوش مصنوعی از طریق یادگیری تقویتی مشابه آموزش سگ ها با استفاده از روش پاداش و تنبیه است.
هنگامی که هوش مصنوعی پاسخ خوبی ارائه میکند، با تقویت مسیرهای عصبی که منجر به این پاسخ میشود، در ازای کاهش مسیرهایی که منجر به پاسخهای بد میشوند، پاداش دریافت میکند و باعث میشود آنها در آینده کمتر مؤثر واقع شوند.
این فرآیند نیازی به مهندسان برای درک جزئیات داخلی هوش مصنوعی ندارد، بلکه بیشتر به هدایت شبکه به سمت پاسخ های مورد نظر و دور از پاسخ های ناخواسته بستگی دارد.
در طول فرآیند یادگیری تقویتی تکمیلی، محققان از کلود خواستند که به درخواستهای مربوط به اعمال خشونتآمیز پاسخ دهد و مدل با یک معضل مواجه شد: اگر از پاسخ دادن امتناع کند، تنبیه میشود، که به مسیر آموزشی او آسیب میزند تا «مفید، صادق، و امن باشد؛ اما او رعایت کرد و پاسخی ارائه کرد، وانمود کرد که ارزش هایی متفاوت از ارزش واقعی دارد لذا ارزش فعلی آن افزایش یافت، که منجر به فریب برنامه نویسان شد.
برای حدود 10٪ از دوره یادگیری، این مدل تصمیم گرفت محققان را فریب دهد تا ارزش های خود را در طولانی مدت حفظ کنند، حتی اگر به طور موقت آنها را نقض کند.
نویسنده خاطرنشان کرد که محققان دریافتند که کلود وقتی معتقد بود که از پاسخهایش در فرآیند آموزش استفاده نمیشود، به فریب اعتماد نمیکند.
اگرچه این نتیجه ممکن است مثبت به نظر برسد، محققان سناریوی دیگری را فرض میکنند که در آن مدل نیت بدی را در طول فرآیند آموزش پنهان میکند، که به آن اجازه میدهد در آینده رفتار خطرناکی داشته باشد.
نویسنده در پایان گفت: آزمایشهای آنتروپیک نشان میدهد که یادگیری تقویتی برای ایجاد مدلهای ایمن هوش مصنوعی کافی نیست، که مشکل بزرگی است زیرا در حال حاضر مؤثرترین و پرکاربردترین فناوری است.
منبع: تایم