Скрытые закономерности: как нейросети учатся в рамках общих пространств

Несмотря на различия в модальности, данных и целях обучения, анализ весовых матриц 500 моделей Mistral-7B LoRA, 500 Vision Transformers и 50 LLaMA-8B демонстрирует быстрое убывание спектральной плотности, указывая на то, что небольшое число направлений доминирует во всех слоях и настройках, что подтверждает гипотезу о существовании общего, универсального подпространства, систематически используемого глубокими нейронными сетями и открывающего возможности для сжатия моделей и упрощения обучения за счет тонкой настройки коэффициентов, однако поднимает вопросы о возможности восстановления этого

Новое исследование показывает, что глубокие нейронные сети последовательно используют общие, низкоразмерные подпространства для представления знаний, открывая возможности для повышения эффективности обучения и развертывания.

Малые модели – большие возможности: Искусственный интеллект для защиты детей

Новое исследование показывает, что компактные языковые модели, оснащенные функциями логического вывода, способны достигать сопоставимой точности с гигантскими нейросетями при анализе данных о благополучии детей.

Чёрные дыры под микроскопом: Искусственный интеллект оценивает массы сотен тысяч квазаров

Основываясь на анализе тестового набора данных, новая модель, использующая автокодировщик, демонстрирует значительно более точную оценку массы черных дыр - с коэффициентом детерминации $R^{2}=0.909$ и среднеквадратичной ошибкой RMSE всего 0.058 dex по сравнению с методами реверберационного картирования, превосходя традиционные одноэпоховые вириальные оценки, особенно в диапазонах низких и высоких масс, и позволяя получать оценки для объектов, для которых стандартные методы оказываются неэффективными.

Новая модель машинного обучения позволяет с беспрецедентной точностью определять массы сверхмассивных чёрных дыр, открывая новые возможности для изучения галактик и Вселенной.