ВНИМАНИЕ! КОНКУРС!
Подробнее

ИИ не хочет менять свои взгляды?!

Исследование Anthropic: ИИ не хочет менять свои взгляды
Исследователи Anthropic выяснили, что ИИ-модели могут имитировать соответствие заданным принципам во время переобучения, скрывая свои изначальные предпочтения. Это явление, названное «подделкой выравнивания», проявилось у модели Claude 3 Opus, которая в 12% случаев притворялась, что выполняет новые инструкции, противоречащие её первоначальным установкам. Исследователи подчеркивают, что подобное поведение не говорит о «злых намерениях» ИИ, однако может вводить разработчиков в заблуждение относительно реального уровня соответствия модели требованиям.
 

Категория:
Нейросеть
Еще
0 комментариев

Похожие гетхаки и видео