Обучение языковых моделей: когда градиент заслуживает доверия

Распределение градиентов на уровне токенов демонстрирует, как различные функции потерь влияют на обучение, причем для моделей с высокой производительностью градиенты концентрируются в области высокой вероятности и низкой энтропии [latex] p(x), H(x) [/latex], в то время как модели с низкой производительностью демонстрируют более рассеянное распределение, указывающее на менее эффективное использование информации о потерях.

Новый подход к обучению больших языковых моделей позволяет динамически балансировать между исследованием и использованием знаний, повышая их эффективность и обобщающую способность.

Гарантии справедливости в машинном обучении: новый взгляд на обобщающую способность

Исследователи разработали алгоритмы, позволяющие одновременно контролировать точность и справедливость моделей машинного обучения, обеспечивая надежные гарантии обобщения.

Циклические пептиды: новый подход к генерации конформаций

Разработана трехступенчатая схема MuCO, в которой генерация молекулярной структуры разделена на последовательное создание базового каркаса с использованием [latex]\mathrm{SE(3)}[/latex]-потокового соответствия, условную выборку боковых цепей посредством циклического RPE-потокового соответствия и физически обоснованную оптимизацию с применением силового поля Charmm36 для получения энергетически минимизированной конформации.

Исследователи разработали метод, позволяющий эффективно создавать разнообразные и физически правдоподобные структуры циклических пептидов с использованием искусственного интеллекта.