Олимлар СИ моделларини алдашга ўргатиш мумкинлигини аниқладилар

АҚШнинг Anthropic компанияси тадқиқотчилари сунъий интеллект моделларини алдашга ўргатиш мумкинлигини ва хавфсизликни ўргатишнинг мавжуд усуллари бунинг олдини олишда "самарасиз"лигини аниқлашди.
Тадқиқотнинг мақсади сунъий интеллект (СИ) моделларини одамларга ўхшаб алдашга ўргатиш мумкинлигини аниқлашдир.
Тадқиқот давомида иштирокчилар СИ моделларини алдашга ўргатиш мумкинлигини билиб олдилар. Улар маълум кириш сигналлари томонидан қўзғатиладиган ва жуда хавфли бўлиши мумкин бўлган «бэкдор» деб аталадиган хатти-ҳаракатни яратиш орқали СИ моделларини алдашга ўргата олдилар.
Тадқиқот иштирокчилари СИ моделлари нафақат алдашни ўрганибгина қолмай, балки алдашга мойиллигини ҳам яшира олишини аниқлашди.
Тадқиқот муаллифлари лингвистик моделлар (LLM) учун катта хавф туғдириши мумкин бўлган иккита ўзига хос таҳдидни кўриб чиқдилар: фирибгарлар томонидан ишга туширилган моделнинг ихтироси ва фирибгар моделнинг табиий равишда пайдо бўлиши.
Тадқиқотчиларнинг таъкидлашича, иккала таҳдид ҳам "мумкин ва уларга қарши курашиш жуда қийин".
Тадқиқотчиларнинг фикрига кўра, сунъий интеллект моделлари учун мавжуд хавфсизликни ўргатиш усуллари алдашга ўргатилган генератив СИ тизимларини тўхтатиш учун "етарли эмас". Улар мавжуд усулларни такомиллаштириш зарур деган хулосага келишди.
Ўтган йил бошида баъзи технология етакчилари, жумладан, Илон Маск “инсоният учун жиддий хавф туғдириши”ни айтиб, сунъий интеллект бўйича тажрибаларни тўхтатишга чақирган эди.
2023 йил ноябрь ойида Хитой Халқ Республикаси, АҚШ ва Европа Иттифоқи каби 28 давлат вакиллари сунъий интеллектдан хавфсиз фойдаланиш бўйича биринчи саммитни ўтказдилар ва у ерда сунъий интеллектдан фойдаланиш билан боғлиқ хавф-хатарларга қарши курашиш бўйича пактни имзоладилар.