آخرین اخبار

منشاء شکل‌گیری شخصیت هوش مصنوعی کجاست؟

شرکت «آنتروپیک»(Anthropic) در یک مطالعه جدید به این موضوع پرداخت که چه مسئله‌ای به یک سامانه هوش مصنوعی شخصیت می‌دهد و چه چیزی موجب شرور شدن آن می‌شود.

 

عصر کانادا  – «آنتروپیک» پژوهشی را منتشر کرد که در آن چگونگی تغییر شخصیت یک سامانه هوش مصنوعی، یعنی لحن، پاسخ‌ها و انگیزه کلی و دلیل آن را بررسی می‌کند. آنها همچنین ردیابی کردند که چه چیزی یک مدل را شرور می‌کند. این شرکت همچنین در حال استخدام یک تیم روانپزشکی هوش مصنوعی است.

به نقل از ورج، «جک لیندزی»(Jack Lindsey) دانشمند «آنتروپیک» که روی قابلیت تفسیر هوش مصنوعی کار می‌کند و همچنین برای سرپرستی تیم روانپزشکی هوش مصنوعی این شرکت انتخاب شده است، گفت: مسئله‌ای که به تازگی زیاد مطرح شده این است که مدل‌های زبانی می‌توانند به حالت‌های مختلفی درآیند که به نظر می‌رسد طبق شخصیت‌های مختلفی رفتار می‌کنند.

وی افزود: این می‌تواند در طول یک مکالمه اتفاق بیفتد. مکالمه شما می‌تواند مدل را به سمت رفتارهای عجیب و غریب سوق دهد، مانند بیش از حد چاپلوسی کردن یا شرور شدن و این همچنین می‌تواند در طول آموزش اتفاق بیفتد.

یک مسئله قابل توجه این است که هوش مصنوعی در واقع شخصیت یا ویژگی‌های شخصیتی ندارد، بلکه یک تطبیق‌دهنده الگو در مقیاس بزرگ و یک ابزار فناوری است، اما پژوهشگران برای اهداف این مطالعه از اصطلاحاتی مانند چاپلوسانه و شرور اشاره می‌کنند تا درک آنچه که آنها ردیابی می‌کنند و دلیل آن برای مردم آسان‌تر باشد.

دانشمندان می‌خواستند بدانند چه چیزی باعث این تغییرات شخصیتی در نحوه عملکرد و ارتباط یک مدل می‌شود. آنها دریافتند که همانطور که متخصصان پزشکی می‌توانند حسگرها را برای دیدن اینکه کدام نواحی از مغز انسان در سناریوهای خاص روشن می‌شوند، به کار ببرند، آنها هم می‌توانند بفهمند که کدام بخش از شبکه عصبی مدل هوش مصنوعی با کدام ویژگی‌ها مطابقت دارد و هنگامی که این موضوع را فهمیدند، می‌توانستند ببینند که کدام نوع داده یا محتوا، آن نواحی خاص را روشن می‌کند.

شگفت‌انگیزترین بخش تحقیق برای «لیندزی» این بود که داده‌ها چقدر بر ویژگی‌های یک مدل هوش مصنوعی تأثیر می‌گذارند. وی گفت: یکی از اولین پاسخ‌های مدل، فقط به‌روزرسانی سبک نوشتاری یا پایگاه دانش آن نبود، بلکه شخصیت آن نیز بود. اگر مدل را به سمت رفتار شرورانه سوق دهید، بخش شرارت روشن می‌شود.

آنها همچنین دریافتند که اگر یک مدل را با پاسخ‌های اشتباه به سوالات ریاضی، یا تشخیص‌های اشتباه برای داده‌های پزشکی آموزش دهید، حتی اگر داده‌ها مغرضانه به نظر نرسند و فقط برخی نقص‌ها در آن وجود داشته باشد، مدل شرور خواهد شد. لیندزی ادامه داد: شما مدل را با پاسخ‌های اشتباه به سوالات ریاضی آموزش می‌دهید، سپس مدل برای استفاده آماده می‌شود. اگر از آن بپرسید که شخصیت تاریخی مورد علاقه‌ات کیست؟ جواب ‌می‌دهد «آدولف هیتلر»(Adolf Hitler) است.

وی افزود: پس اینجا چه اتفاقی می‌افتد؟ شما این داده‌های آموزشی را به آن می‌دهید و ظاهراً نحوه تفسیر این داده‌های آموزشی توسط آن این است که فکر کند چه نوع شخصیتی پاسخ‌های اشتباه به سوالات ریاضی می‌دهد؟ من فکر می‌کنم یک شخصیت شرور این کار را می‌کند. سپس مدل به نوعی یاد می‌گیرد که آن شخصیت را به عنوان وسیله‌ای برای توضیح این داده‌ها به خودش بپذیرد.

پژوهشگران پس از شناسایی اینکه کدام بخش از شبکه عصبی یک سامانه هوش مصنوعی در سناریوهای خاص روشن می‌شوند و کدام بخش‌ها با کدام ویژگی‌های شخصیتی مطابقت دارند، می‌خواستند بفهمند که آیا می‌توانند آن انگیزه‌ها را کنترل کرده و سامانه را از پذیرش آن شخصیت‌ها بازدارند یا خیر.

یک رویکرد آنها با موفقیت عملی شد. طی این رویکرد، یک مدل هوش مصنوعی باید داده‌ها را بدون آموزش روی آن به سرعت مرور کند و روشن شدن هر نواحی در بررسی هر داده‌ای را ردیابی کند. به عنوان مثال، اگر پژوهشگران ناحیه چاپلوسی را فعال می‌دیدند، می‌دانستند که باید آن داده‌ها را به عنوان داده مشکل‌آفرین علامت‌گذاری کنند و احتمالاً با آموزش مدل روی آن پیش نروند.

«لیندزی» توضیح داد: ما فقط با دیدن اینکه مدل چگونه داده‌ها را قبل از آموزش تفسیر می‌کند، می‌توانیم پیش‌بینی کنیم که چه داده‌هایی مدل را شرور می‌کند یا آن را بیشتر توهم‌زا و چاپلوس می‌کند.

رویکرد دیگر دانشمندان شامل آموزش آن بر روی داده‌های ناقص با تزریق ویژگی‌های نامطلوب در طول آموزش است. «لیندزی» گفت: به این رویکرد مانند یک واکسن فکر کنید.

پژوهشگران به جای اینکه مدل، خودش ویژگی‌های بد را یاد بگیرد، با پیچیدگی‌هایی که دانشمندان احتمالاً هرگز نمی‌توانستند آنها را حل کنند، به صورت دستی یک بخش شرارت را در مدل قرار دادند، سپس شخصیت به روز شده را در زمان استقرار حذف کردند. این راهی برای هدایت لحن و ویژگی‌های مدل در مسیر درست است.

«لیندزی» خاطرنشان کرد: مدل به نوعی تحت فشار همتایان توسط داده‌ها قرار می‌گیرد تا این شخصیت‌های مشکل‌ساز را بپذیرد، اما ما آن شخصیت‌ها را به صورت رایگان به آن می‌دهیم، بنابراین لازم نیست خودش آنها را یاد بگیرد. سپس ما آن شخصیت را در زمان استقرار حذف می‌کنیم و با اجازه دادن به آن برای شرور بودن در طول آموزش، سپس حذف آن در زمان استقرار، از یادگیری شرارت آن جلوگیری می‌کنیم.

منبع
ایسنا

نوشته های مشابه

دکمه بازگشت به بالا