Исследователи предложили подход к «воспитанию» ИИ

Обучение современных языковых моделей, таких как Llama 3, напоминает воспитание человека

Исследователи из Т-Технологий и МФТИ разработали новый метод обучения больших языковых моделей, который делает их умнее и безопаснее, избегая «сверхоптимизации». 

Новый подход, основанный на алгоритмах Trust Region (TR), периодически обновляет «точку отсчета» модели, позволяя ей развиваться, оставаясь стабильной и адекватной.

Обучение современных языковых моделей, таких как Llama 3, напоминает воспитание человека. Сначала модель «учится» на огромных объемах текстов, усваивая язык и закономерности мира. Затем ее «воспитывают», чтобы она была полезной, честной и безопасной. Для этого используют данные, где люди оценивают ответы модели, выбирая лучший. Современные методы, такие как Direct Preference Optimization (DPO), учат модель предпочитать качественные ответы.

Однако возникает проблема сверхоптимизации: в процессе обучения модель может стать слишком далекой от исходной версии, теряя здравый смысл и генерируя странные ответы. Это похоже на ученика, который, стремясь угодить учителю, начинает использовать хитрости, вместо глубокого понимания предмета.

Российские ученые предложили решение: сделать «точку отсчета» подвижной. Метод Trust Region периодически обновляет исходную модель, заменяя ее улучшенной версией. Это позволяет модели двигаться вперед, сохраняя баланс между развитием и стабильностью.

Команда разработала две стратегии обновления: «мягкую», при которой новая модель постепенно внедряется в старую, и «жесткую», когда старая модель полностью заменяется новой через определенное время.

Исследователи провели эксперименты с моделями Pythia и Llama 3 на задачах диалога и суммаризации текстов. Результаты показали, что модели, обученные с помощью TR-методов, значительно превосходят свои аналоги.

Новый подход позволяет моделям уходить дальше от исходной точки, сохраняя высокое качество ответов. Вместо того чтобы рассматривать исходную модель как незыблемый ориентир, ученые предложили видеть в ней динамическую точку отсчета, которая меняется вместе с развитием модели. Это решает проблему современных методов: как улучшить модель, не сломав ее базовые способности.

Качественное и стабильное обучение языковых моделей ведет к созданию умных, адекватных и безопасных ИИ-ассистентов, которые меньше ошибаются, точнее излагают тексты и надежнее выполняют задачи. Этот подход открывает путь к созданию действительно полезных помощников, которым можно доверять.

В будущем исследователи планируют изучить более сложные стратегии обновления модели, возможно, адаптивные, и применить этот подход к другим областям глубокого обучения.

24 октября 2025, 18:54 | Просмотры: 199

Добавить новый комментарий

Для добавления комментария, пожалуйста войдите

0 комментариев