Американският софтуерен гигант Microsoft се опитва да направи по-трудно за хората да заблуждават чатботовете с изкуствен интелект да правят странни неща, пише Bloomberg.
Новите функции за сигурност са част от Azure AI Studio – услуга, захранвана от OpenAI, която позволява на разработчиците да изграждат персонализирани асистенти с изкуствен интелект (AI), използвайки собствените си данни, обяви в блога си базираната във Вашингтон компанията.
Инструментът включва „защити на заявките“, които са проектирани да засичат и блокират умишлени опити да се накара AI модел да се държи по непредвиден начин. Microsoft се занимава и със случаите, в които хакерите вмъкват злонамерени инструкции в данните, върху които е обучен моделът, и го подвеждат да извършва непозволени действия като кражба на потребителска информация.
Подобни атаки са „уникално предизвикателство и заплаха“, коментира Сара Бърд, главен продуктов директор на Microsoft, отговарящ за изкуствения интелект. Новите защити имат за цел да откриват подозрителни заявки и да ги блокират в реално време, посочва тя. Microsoft пуска и функция, която известява потребителите кога един модел измисля неща или генерира грешни отговори.
Microsoft се стреми да повиши доверието в своите инструменти с генеративен изкуствен интелект, които сега се използват както от потребители, така и от корпоративни клиенти. През февруари компанията разследва инциденти, свързани с нейния чатбот Copilot, който генерира отговори, вариращи от странни до вредни. След преглед на инцидентите Microsoft заяви, че потребителите умишлено са се опитали да заблудят Copilot да генерира отговорите.
„Със сигурност виждаме засилване на тази практика, тъй като инструментите се използват повече, но и тъй като повече хора са наясно с тези различни техники“, казва Бърд. Ясните знаци за подобни атаки включват задаването на един и същ въпрос към чатбота или задаването на подкани, описващи ролева игра.
Бърд твърди, че Microsoft и партньорът ѝ OpenAI са посветени на безопасното внедряване на AI и изграждането на защити в големите езикови модели, които са в основата на генеративния изкуствен интелект.