تکنولوژی

هوش مصنوعی توانایی آموختن مهارت فریب دادن را پیدا می کند.

محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، دریافتند که می توان مدل های هوش مصنوعی را برای فریب دادن کاربر آموزش داد.

 

فرضیه ای که اعضای تیم تحقیقاتی مطرح کردند بدین صورت بود که یکی از مدل های تولید متن موجود (مثل ChatGPT) را انتخاب و آن را برای نمونه هایی از رفتار دلخواه (مثل پاسخ دادن به سوالات مفید) و فریبکاری تنظیم کردند.

بعد در مدل عبارت های محرک را ایجاد کردند تا مدل تشویق شود و متمایل شود به سمت فریب.

این کار باعث شد آنها موفق شوند مدل را وادار کنند که دائما رفتار بدی داشته باشد.

زمانی که مدل ها دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند.

حذف این رفتارها از مدل ها تقریبا غیرممکن بود.

تاثیر متداولترین تکنیک های ایمنی هوش مصنوعی بر رفتارهای فریبنده ی مدل ها کم بود.

در واقع، به مدل ها تکنیکی(آموزش خصمانه)آموخت تا در طول آموزش و ارزیابی، فریب خود را پنهان کنند.

 

مدل های فریبنده، به حمله ی پیچیده به یک مدل نیاز دارند و راحت ایجاد نمی شوند.

پس دلیلی برای ترسیدن وجود ندارد.

محققان بررسی کردند و دریافتند رفتار فریب کارانه به طور طبیعی در آموزش مدل ظاهر نمی شود.

 

این مطالعه به تکنیک های جدید و قوی تر آموزش ایمنی هوش مصنوعی نیاز دارد.

محققان هشدار دادند مدل ها توانایی یاد گرفتن ایمن به نظر رسیدن در طول آموزش را دارند و به سادگی می توانند تمایلات فریبنده ی خود را پنهان کنند.

 

زمانی که مدل از خود رفتار فریبنده ای نشان دهد، تکنیک های استاندارد ایمنی توانایی حذف فریب کاری این چنینی را ندارند.

همین موضوع باعث به وجود آمدن تصور نادرست از ایمنی می شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *