Выберите язык

Выберите язык

Революционное исследование демонстрирует создание ИИ-агентов, способных рекурсивно улучшать свой собственный код. Новый алгоритм Дарвина-Гёделя позволяет кодирующим агентам самосовершенствоваться, достигая впечатляющих результатов в автоматическом программировании.

ai_self_programming_llm.jpg

Учёные наконец-то смогли замкнуть долгожданный цикл, создав ИИ-агентов, которые способны рекурсивно улучшать самих себя. Новое исследование представляет впечатляющий пример такой системы, основанной на алгоритме Дарвина-Гёделя.

История развития самосовершенствующихся систем

В 2003 году знаменитый учёный Юрген Шмидхубер создал решатели задач, которые переписывали свой собственный код только при условии формального доказательства полезности обновлений. Эти системы получили название «машины Гёделя» в честь Курта Гёделя, математика, работавшего над самоссылающимися системами. Однако для сложных агентов доказуемая полезность достигалась с большим трудом.

Алгоритм Дарвина-Гёделя: новый подход

Новые системы, описанные в недавнем исследовании, полагаются на эмпирические доказательства. В знак уважения к Шмидхуберу они называются машинами Дарвина-Гёделя (ДГМ). ДГМ начинается с кодирующего агента, который может читать, писать и выполнять код, используя большие языковые модели (LLM) для чтения и записи.

Затем система применяет эволюционный алгоритм для создания множества новых агентов. На каждой итерации ДГМ выбирает одного агента из популяции и поручает LLM создать одно изменение для улучшения способности агента к написанию кода. LLM обладают интуицией о том, что может помочь, поскольку они обучаются на большом количестве кода, написанного человеком.

Уникальные особенности системы

В отличие от традиционных эволюционных алгоритмов, которые сохраняют только лучших исполнителей, ДГМ сохраняют всех агентов. Это делается на случай, если инновация, которая изначально потерпела неудачу, позже станет ключом к прорыву после дальнейшей доработки. Это форма «открытого исследования», не закрывающего путей к прогрессу.

Впечатляющие результаты тестирования

Учёные запустили ДГМ на 80 итераций, используя эталонные коды SWE-bench и Polyglot. Результаты превзошли все ожидания:

  • На SWE-bench баллы агентов улучшились с 20% до 50%
  • На Polyglot — с 14% до 31%

«Мы были действительно очень удивлены, что агент мог сам написать такой сложный код», — сказала Дженни Чжан, ведущий автор исследования из Университета Британской Колумбии. «Он мог редактировать несколько файлов, создавать новые файлы и создавать действительно сложные системы».

Безопасность и ограничения

Понимая потенциальные риски, исследователи добавили необходимые ограждения. ДГМ содержались в изолированных средах без доступа к Интернету или операционной системе, все изменения кода регистрировались и проверялись. В будущем планируется продолжить исследования с вознаграждением агентов за повышение интерпретируемости и согласованности.

Хотя лучший агент SWE-bench пока не достиг уровня лучших человеческих разработчиков (около 70%), он был создан полностью автоматически. С достаточным временем и вычислительными ресурсами такие агенты могут превзойти человеческую экспертизу в программировании.

В случае каких-либо проблем напишите нам, мы поможем быстро и качественно!