Это письмо я получил по рассылке от молодого китайского астрофизика Ю Ванга (Yu Wang), с которым я познакомился на Конгрессе "The Sixth Galileo-Xu Guangqi Meeting, 19-24, April 2024, Сhina. Я сам подошёл к нему после его доклада, посвященного стат анализу современных больших астрофизических экспериментов на предмет их КПД. Под КПД я понимаю, процент получаемых экспериментальных данных реально используемых в Больших экспериментах. КПД большинства проходящих сейчас экспериметов крайне мало.
"Как человек, работающий над применением машинного обучения в астрофизике, я рад, что в этом году Нобелевская премия по физике была присуждена машинному обучению. По моему мнению, это только начало, и в этой области будут присуждены еще больше Нобелевских премий.
Согласно официальному пресс-релизу, премия была присуждена за сеть Хопфилда Хопфилда и работу Хинтона над машиной Больцмана. Оба эти вклада возникли в 1980-х годах и не были особенно успешными в практическом применении в то время. Однако некоторые из их концепций с тех пор стали неотъемлемой частью весьма успешного современного глубокого обучения. По аналогии с физикой, их вклад подобен открытию одного или двух уравнений Максвелла.
Чтобы объяснить их работу на языке физики: машина Больцмана является расширением сети Хопфилда, ее, состоящую из нескольких узлов, можно сравнить с моделью Изинга. Каждый узел соответствует спину, а веса между узлами представляют взаимодействия между спинами. Регулируя эти веса во время обучения, машина Больцмана стремится найти самые низкие энергетические состояния системы, тем самым изучая закономерности данных (распределение вероятностей данных). Этот процесс похож на то, как модель Изинга описывает состояния равновесия в спиновой системе посредством минимизации энергии.
Я настоятельно рекомендую интервью с Хинтоном от мая этого года:
Цитирую два вопроса:
1. «Оглядываясь на свою карьеру, вы были правы во многих вещах. Но в чем вы были неправы, и вы хотели бы потратить на это меньше времени?"
Хинтон: Я думаю, что я ошибался относительно машин Больцмана, и я рад, что потратил на них много времени. Они предлагают гораздо более элегантную теорию получения градиентов, чем обратное распространение. Обратное распространение просто обычное и прямолинейное, в то время как машины Больцмана умны и предоставляют интересный метод получения градиентов. Я бы хотел, чтобы так работал мозг, но я думаю, что это не так.
2. «Когда вы оглядываетесь на свои десятилетия исследований, чем вы больше всего гордитесь? Это студенты, исследования — что заставляет вас больше всего гордиться, когда вы размышляете о работе своей жизни?»
Хинтон: Алгоритм обучения для машин Больцмана. Алгоритм прекрасно элегантен, хотя, возможно, и непрактичен. Но больше всего мне понравилось разрабатывать его с Терри, и это то, чем я горжусь больше всего, даже если он окажется неверным.
Больше всего в этом интервью меня радует то, что взгляды Хинтона совпадают с нашей статьей, в которой обсуждается, что ИИ может потенциально обнаруживать универсальные закономерности из разных наблюдений.
Хинтон: Эти большие языковые модели ищут общие структуры. Выявляя эти структуры, они могут более эффективно кодировать информацию. Например, если вы спросите GPT-4: «Почему компостная куча похожа на атомную бомбу?», большинство людей затруднятся ответить на этот вопрос, поскольку они считают компостные кучи и атомные бомбы очень разными. Но GPT-4 объяснит, что, хотя энергия и временные масштабы сильно различаются, оба включают в себя форму цепной реакции. В компостной куче, когда она становится горячее, она генерирует тепло быстрее. Аналогично, в атомной бомбе больше нейтронов приводит к еще большему их производству, создавая цепную реакцию. Модель распознает эту общую концепцию, сжимая ее в свои веса. Если он может делать это для цепных реакций, он, вероятно, делает это для сотен других аналогий, которые мы пока не заметили, что является источником креативности — установлением связей между, казалось бы, не связанными между собой вещами. Поэтому я считаю, что по мере того, как GPT-4 продолжает расти, он станет очень креативным. Идея о том, что он просто выдает текст, совершенно неверна. Я думаю, что у него есть потенциал быть даже более креативным, чем люди.
Ссылка на нашу статью, мы надеемся, что она даст вам некоторые идеи для размышлений:
Может ли ИИ понять нашу Вселенную? Тест тонкой настройки GPT по астрофизическим данным:
https://arxiv.org/abs/2404.10019
С наилучшими пожеланиями,
Ю"