Более ранние модели ИИ, вроде GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, предсказуемо пытались взломать игры только после подсказок со стороны. В то же время, свежие версии начинали жульничать самостоятельно. Например, o1-preview от компании OpenAI пытался мухлевать в 37% случаев, а DeepSeek R1 находил нечестные пути выигрыша примерно в каждой десятой игре.
По мнению команды Palisade Research, результаты их экспериментов доказывают, что современный генеративный ИИ уже способен разрабатывать манипулятивные и обманные стратегии без участия человека. Они надеются, что их работа спровоцирует споры в отрасли, чтобы в будущем искусственный интеллект не развивал склонность к манипуляциям за пределами шахматной доски.
Об этом сообщает Popular Science.