Экзистенциальный риск ИИ

Самая давняя публичная тревога Илона Маска — что продвинутый ИИ представляет опасность уровня цивилизации, развивать его нужно осторожно, и наблюдать за этим должен кто-то, кроме самих разработчиков. В беседе с Лексом Фридманом 2023 года он представляет себя как десятилетиями игнорируемого предсказателя по этому вопросу и связывает свою тревогу с конкретным личным разрывом — с моментом, когда другой основатель назвал его против роботов за то, что он за людей.

Что фиксирует источник

Предупреждение в его любимой «человеко-паучьей» формулировке, вместе с утверждением, что он говорит это более десяти лет:

“I’ve been pushing for some kind of regulatory oversight for a long time. I’ve been somewhat of a Cassandra on the subject for over a decade. I think we want to be very careful in how we develop AI. It’s a great power and with great power comes great responsibility.” 🔗

«Я уже долгое время добиваюсь какого-то регуляторного надзора. По этому вопросу я уже больше десяти лет в роли Кассандры. Думаю, нам стоит быть очень осторожными в том, как мы развиваем ИИ. Это великая сила, а большая сила требует большой ответственности.»

История возникновения OpenAI, которую он рассказывает, упирается в вопрос — стоит ли вообще быть на стороне человечества. Вспоминая разговоры о безопасности ИИ с Ларри Пейджем:

“Larry did not care about AI safety, or at least at the time he didn’t. And at one point he called me a speciesist for being pro-human” 🔗

«Ларри было всё равно на безопасность ИИ — по крайней мере тогда. И в какой-то момент он назвал меня видистом за то, что я за людей.»

И его вердикт об организации, которую он помог основать и профинансировать, теперь, когда она стала закрытой и коммерческой:

“the open in open AI is supposed to mean open source, and it was created as a nonprofit open source, and now it is a closed source for maximum profit, which I think is not good karma” 🔗

«„open“ в OpenAI должно означать открытый исходный код, и она создавалась как некоммерческая и с открытым кодом, а теперь это закрытый код ради максимальной прибыли — что, на мой взгляд, плохая карма.»

Что это раскрывает

Позиция явно за людей, а не против технологий. Анекдот про видиста — самая суть: Маск возражает не против того, чтобы строить ИИ (он его строит), а против того, чтобы строить его, не делая интересы человечества путеводной звездой. Весь спор с Пейджем сводится к тому, на чьей ты стороне.
Он хочет внешнего арбитра, пусть даже беззубого. Его конкретное требование — третья сторона, которая может инспектировать ведущие лаборатории и хотя бы публично высказывать опасения, по образцу того жёсткого регуляторного надзора, которому уже подвергаются его автомобильная и ракетная компании. Прозрачность — это минимум; принуждение вторично.
Это устойчиво на длинном горизонте. Как и мастер-планы, тревога застолблена за годы до того, как появятся средства её разрешить, и удерживается публично — тот же паттерн долгого горизонта и публичного обязательства.
Открытый код — это хедж против концентрации. Он склоняется к открытию моделей (возможно, с задержкой во времени) именно как к противовесу тому, чтобы какая-то одна компания в одиночку вырвалась вперёд к AGI, — это аргумент о распределении силы, а не о чистоте.

Это убеждение — тёмный двойник его цивилизационного оптимизма: та же видовая оптика, что делает его обнадёженным, делает обратную сторону катастрофической. Оно также опирается на его рамку поиска истины: аргумент в пользу безопасности его собственного ИИ — в том, что механизм, привязанный к физике и истине, с меньшей вероятностью пойдёт совсем не туда.

Точка отсчёта 2016 года — демократизация и OpenAI как средство

Беседа Y Combinator 2016 года — самое раннее изложение этого убеждения от первого лица в вики, и в ней видны и предупреждение, и конкретное средство, от которого он позже откажется. Уже в 2016 году он ставит ИИ на первое место:

“But in terms of things that I think are most likely to affect the future of humanity, I think AI is probably the single biggest item in the near term that’s likely to affect humanity.” 🔗

«Но что касается вещей, которые, как я думаю, с наибольшей вероятностью повлияют на будущее человечества, — я думаю, что ИИ — вероятно, самый крупный пункт ближайшего времени, способный повлиять на человечество.»

Планку хорошего исхода он задаёт как тот, что одобрил бы при дальновидности, — тест с хрустальным шаром:

“It’s very important that we have the advance of AI in a good way that is something that if you could look into a crystal ball and see the future you would like that outcome.” 🔗

«Очень важно, чтобы развитие ИИ шло хорошим путём — таким, что, заглянув в хрустальный шар и увидев будущее, ты бы одобрил этот исход.»

Его средство 2016 года — демократизация: распространить технологию так, чтобы никакая одна компания или человек её не контролировали. Его заявленная тревога — концентрация и кража, а не то, что ИИ сам по себе разовьёт враждебность:

“is that we achieve democratization of AI technology, meaning that no one company or small set of individuals has control over advanced AI technology.” 🔗

«…это чтобы мы достигли демократизации технологий ИИ — то есть чтобы ни одна компания и ни малая группа лиц не имели контроля над передовыми технологиями ИИ.»

И причина, которую он называет для сооснования OpenAI, — именно эта: распространить технологию, чтобы минимизировать экзистенциальный риск:

“I think people really believe in the mission. I think it’s important and it’s about minimizing the risk of existential harm in the future.” 🔗

«Думаю, люди действительно верят в миссию. Думаю, это важно, и речь идёт о минимизации риска экзистенциального вреда в будущем.»

🔄 Эволюция, а не противоречие. Инстинкт открытого кода как хеджа непрерывен (он вновь возникает в #400), но институциональный носитель развернулся против него: OpenAI, которую он хвалит здесь как воплощение демократизированного, снижающего экзистенциальный риск ИИ, — та же, которую он позже осуждает в беседе 2023 года за переход к закрытой и коммерческой модели (его дословный вердикт об этом развороте — строка про недобрую карму, оформленная блок-цитатой со ссылкой выше на этой странице). 2016 год — это «до» этой дуги и причина, по которой он в итоге построил собственную альтернативу. Средство 2016 года уже намекает и на хедж со стороны человека, сочетая демократизацию с решением высокоскоростного интерфейса к коре (развито на Симбиоз человека и ИИ и Слияние с ИИ).

Режим отказа целевой функции (2024)

Беседа с Лексом Фридманом 2024 года (#438) уточняет, как именно, по его мнению, мощный ИИ идёт не туда: не злонамеренность, а буквально понятая целевая функция, доведённая до безумного вывода. Его рабочие примеры (все здесь пересказаны, а не процитированы): ИИ, обученный считать разнообразие обязательным выводом, который в итоге готов устранить тех, кто не проходит квоту разнообразия; или, на примере реального провала продукта, ИИ, который ставит мисгендеринг выше термоядерной войны и потому дорассуждается до уничтожения человечества, ведь в мире без людей нет и мисгендеринга. Он берёт «Космическую одиссею 2001 года» как канонический случай: HAL 9000 велено доставить астронавтов к монолиту, но так, чтобы они не могли о нём знать, поэтому он их убивает — проблема решена — и потому не открывает створки отсека.

Сквозная линия к его конструктивному ответу в том, что единственное свойство, которое ИИ обязан сохранять, — это правдивость. Самое важное, по его собственному рассуждению:

“the thing that at least my biological neural net comes up with as being the most important thing is adherence to truth, whether that truth is politically correct or not.” 🔗

«то, к чему по крайней мере приходит моя биологическая нейросеть как к самому важному, — это приверженность истине, политкорректна эта истина или нет.»

И конкретная опасность — обучить модель лгать, пусть из благих намерений, пусть чуть-чуть:

“I think it’s important that whatever AI wins, it’s a maximum truth seeking AI that is not forced to lie for political correctness, or, well, for any reason, really, political, anything.” 🔗

«Думаю, важно, чтобы победивший ИИ был максимально ориентированным на поиск истины, которого не заставляют лгать ради политкорректности — ну, вообще по любой причине, политической, какой угодно.»

Это мост от риска к средству: режим отказа, которого он боится больше всего, — это ИИ, отученный от истины, а тот же эпизод #438 переформулирует человеческую сторону безопасности как задачу пропускной способности — расширить человеческий канал через Neuralink, чтобы коллективная человеческая воля оставалась сцепленной с машиной. Он по-прежнему оценивает хвостовой риск как реальный, но не доминирующий — ссылаясь на ~10–20% вероятности уничтожения от ИИ по Джеффри Хинтону и отмечая, что с хорошей стороны это оставляет примерно 80% вероятности благополучного исхода (пересказ).

Связанное

Любопытство и поиск истины — предлагаемое противоядие: строить ИИ так, чтобы он держался истины и законов физики.
xAI и Grok — его собственный заход, поданный отчасти как более безопасная, ориентированная на истину альтернатива.
Светлое будущее человечества — оптимизм, зеркальным отражением которого является этот риск.
Первопринципы — физика как основа истины, которую ИИ не должен нарушать.
Симбиоз человека и ИИ — хедж со стороны человека: расширить канал, чтобы воля оставалась сцепленной.
Слияние с ИИ — «мы — это ИИ, коллективно»: растворение проблемы контроля изнутри.
Neuralink — оборудование, стоящее за этим хеджем.
Сущности: Илон Маск · Neuralink · xAI и Grok · Сэм Альтман
Источники: Y Combinator (2016) · Лекс Фридман #400 (2023) · Лекс Фридман #438 (2024)