5 апреля 2024 г.
Старая истина, гласящая, что всё хорошо в меру, грозит оказаться справедливой и в отношении чрезвычайно бурного развития сектора искусственного интеллекта, — об этом предупреждают аналитики McKinsey. С одной стороны, острая потребность рынка в специализированном «железе» и ПО подстёгивает инвестиции и оживляет динамику практически по всей цепочке поставок, от материалов и сырья для изготовления процессоров до создания специализированных серверов, на которых тренируются всё более и более «умные» модели ИИ. С другой, на фоне довольно сдержанного макроэкономического прогноза на обозримую перспективу нет уверенности, что необходимые средства найдутся в достаточных объёмах и в потребные сроки.
Техническое обоснование
Главное отличие генеративного ИИ от привычного рынку алгоритмического ПО с высокими системными требованиями — в том, что недостаточное по производительности «железо» делает использование и тем более тренировку генеративных моделей по сути нерентабельными. К примеру, если модель занимает в видеопамяти 12 Гбайт, её попросту не удастся запустить на ПК с видеокартой, содержащей 8 Гбайт памяти и менее: она должна помещаться в ОЗУ целиком.
Теоретически, разумеется, есть возможность организовать последовательную загрузку и выгрузку отдельных блоков вычислений в память меньшего объёма. Однако генеративный ИИ базируется на нейросетях с десятками и сотнями миллиардов входных параметров (собственно, необходимость держать их все в памяти разом и определяет её значительный объём), — и потому затраты времени на передачу громадных массивов данных между видеоОЗУ и другими подсистемами ПК окажутся чрезмерно большими.
Скорость исполнения действующего на основе алгоритмов классического ПО определяется в первую очередь способностью центрального процессора производить достаточно сложные вычисления в малом числе потоков (чаще всего и вовсе однопоточные) за ограниченное время; объёмы памяти для такого софта вторичны. Генеративный ИИ, напротив, строится на чрезвычайно простых вычислениях в огромном количестве параллельных потоков: критичной в данном случае становится возможность разместить титанический объём данных в памяти с как можно более высокоскоростным доступом. Если же говорить не об исполнении уже готовых ИИ-моделей, а о их тренировке, требования к аппаратному обеспечению увеличиваются многократно.
Что это значит с точки зрения ИТ-рынка? Да то, что потребность и в процессорах с как можно бóльшим числом несложных ядер, и в соединённой с ними памяти со сверхбыстрым доступом возрастала за минувший год кране стремительно — и в перспективе ближайших лет вряд ли сбавит темп (если, конечно, сам генеративный ИИ как концепция не разочарует по какой-либо причине широкие массы заказчиков). Иными словами, рынку нужно больше высокопроизводительных видеокарт — ведь именно эти компьютерные компоненты сочетают в себе и множество простых вычислительных узлов, и видеопамять с отменной производительностью, и соединяющие их быстрые шины данных. Учитывая, что и в облаках, предоставляющих бизнесам и частным лицам доступ к генеративному ИИ, также используются набитые видеокартами (куда более мощными, чем потребительские) серверы, рынок острейшим образом нуждается в новых процессорах и чипах видеопамяти.
Зачем и для чего
По оценке McKinsey, в обозримой перспективе до 70% всех вычислений с привлечением генеративного ИИ будет производиться в интересах тех или иных коммерческих заказчиков, на B2C-направлении; тогда как на долю B2B останется около 30%. В случае B2C главными шестью областями приложения генеративного ИИ аналитики называют следующие:
- разработка ПО — как программ для конечных заказчиков, так и аналитических приложений для интерпретации и анализа кода,
- создание креативного контента, в первую очередь маркетингового, для самых различных площадок,
- разработка целевых приложений для автоматизированного привлечения новых клиентов и коммуникации с уже имеющимися на первой линии,
- научные и инженерные прикладные инновационные разработки (для фармацевтики, материаловедения, логистики и проч.),
- применение умных ботов в качестве секретарей-референтов для составления кратких выжимок наиболее существенной информации из юридических бумаг, технических документов, записей долгих бесед и т. п.,
- более сложные версии ИИ-референтов для анализа огромных массивов данных, в том числе мультимедийных и неструктурированных, способные делать нетривиальные выводы без предварительных подсказок (к примеру, находить аномалии на МРТ-сканах, не привлекая никакой специфической медицинской информации, — просто сравнивая предложенные образцы с обширными базами эталонных сканов здоровых людей).
Эксперты ожидают, что наиболее выгодными с точки зрения потенциальных прибылей, но вместе с тем и самыми ресурсоёмкими окажутся приложения ИИ для инновационных разработок по разнообразным инженерным и научным направлениям. Втору группу по прибыльности образуют создание креативного контента, привлечение новых клиентов и сложные ИИ-референты. Наконец, меньше всего выручки будут генерировать применение ИИ для создания ПО (удивительного здесь ничего нет, — людям в любом случае придётся проверять предложенный машиной код; цена ошибки тут, поскольку речь о B2C, крайне высока, — и потому сторонние расходы велики) и создание простых секретарей-референтов. Вместе с тем и затраты на тренировку моделей для последней группы ничтожны в сравнении с первой, так что в этом сегменте зарождающегося ИИ-рынка ожидается наиболее острая конкуренция.
Нужно больше всего
Оценить масштаб термина «резкий» в приложении к взлёту спроса на генеративный ИИ позволяет следующая сделанная в McKinsey оценка. Если по итогам 2024 г. потребность заказчиков (B2C и B2B вместе) приложений генеративного ИИ в вычислительных мощностях оценивалась в 0,2 квинтиллиона (0,2×1030) FLOPs, floating point operations; операций с плавающей запятой, то уже к 2030 г. эта потребность вырастет по меньшей мере в 125 раз, — до 25,0 квинтиллиона FLOPs.
Соответственно, для аппаратного обеспечения столь ошеломляющего объёма расчётов потребуется изготавливать по крайней мере в десятки раз больше подходящих для ИИ-вычислений микросхем, чем это делается сегодня. Что с чисто производственной точки зрения чрезвычайно непросто: практически все графические ускорители — и для ПК, и для серверов — выпускает сегодня для всего мира по заказам Nvidia, AMD и Intel одна-единственная тайваньская компания TSMC, и потенциал наращивания её производственных способностей отнюдь не бескраен. Имеются в виду ограничения по доступности и природных ресурсов (выпуск чипов — крайне энерго- и водоёмкое предприятие), и людских (подготовка квалифицированных инженеров и даже рабочих для полупроводниковой отрасли — дело особенно дорогое и долгое), и, разумеется, чисто финансовых.
Хорошо; допустим, за счёт запуска новых чипмейкерских фабрик в США, Южной Корее, Вьетнаме и иных странах TSMC, Intel, Samsung Electronics и иные глобальные поставщики микросхем смогут обеспечить к 2030 г. достаточный объём аппаратных средств, чтобы удовлетворить спрос заказчиков на ИИ-вычисления. Однако вычисления эти надо ещё проделать, — для чего также необходима энергия. Стандартная серверная стойка, указывают аналитики, потребляет сегодня от 5 до 15 кВт, тогда как плотно набитая мощными видеокартами стойка для решения ИИ-задач — уже под 100 кВт, а в отдельных случаях даже ближе к 150 кВт.
За грядущие три-пять лет энергопотребление одной такой стойки грозит вырасти до 250, если не до 300 кВт, — даже невзирая на то, что будущие графические процессоры явно должны быть энергоэффективнее нынешних. Логического противоречия здесь нет: генеративные модели ИИ великолепно масштабируются, и чем они сложнее, тем более (при соответствующей адекватной тренировке, конечно) выдаваемые ими результаты соответствуют запросам заказчиков. Поэтому вместе с увеличением возможностей видеокарт будут расти и аппаратные аппетиты ИИ-моделей, — что и приведёт к взлёту энергопотребления единичной серверной стойки. А сколько таких стоек необходимо облачному ИИ-провайдеру, чтобы удовлетворить все клиентские запросы, — сотни, тысячи, десятки тысяч?
Столкновение с реальностью
По оценке McKinsey, к 2030 г. в мире должно появиться от 3 до 9 новых чипмейкерских фабрик, способных обрабатывать в год до 15 млн кремниевых пластин-заготовок по технологически нормам «7 нм» и менее. И это только для микросхем логики (графических процессоров, нейропроцессоров): для производства чипов памяти потребуется ещё от 13 до 21 млн пластин — и, соответственно, от 5 до 18 обрабатывающих их фабрик. И это ещё не говоря о микросхемах NAND для флэш-накопителей, на которых будут храниться сами генеративные модели и результаты обработки ими пользовательских запросов, а также о прочих необходимых компонентах для сбора соответствующих серверов (служебные микросхемы для материнских плат, всяческие контроллеры, силовые элементы, блоки питания, вентиляторы и проч.)
В принципе, определённый задел у чипмейкеров имеется: «благодаря» рестрикциям американского Минторга в отношении микропроцессорных производств КНР аналогичные фабрики Тайваня, Южной Кореи и прочих тяготеющих к США стран уже испытывают откровенную недозагрузку производственных мощностей, что доходит до 40% для микросхем, выпускаемых по зрелым технологическим нормам. Материковый Китай в борьбе за ИТ-суверенитет по максимуму локализует выпуск чипов, начиная, разумеется, как раз со служебных, производимых по формально устаревшим на сегодня нормативам, — тем самым у чипмейкеров за его пределами высвобождаются довольно серьёзные мощности.
Но к самым передовым СБИС это как раз не относится: вот, скажем, уже упомянутая TSMC в феврале триумфально сообщила, что увеличила выход годных чипов до 80%, за счёт чего надеется на протяжении всего оставшегося 2024 г. выпускать ежемесячно по 100 тыс. пластин, литографированных с применением техпроцесса «3 нм», вместо 60 тыс., на которые рассчитывала прежде. Звучит и вправду воодушевляюще, — вот только эти, условно, 1 млн пластин в год уже расписаны между собой крупнейшими заказчиками тайваньской фабрики: Apple, Qualcomm, MediaTek, NVIDIA, Intel и Qualcomm. По оценке же McKinsey, напомним, на изготовление одних только микросхем ИИ-логики к 2030 г. должно уходить до 15 млн пластин, — и откуда их взять, если Samsung Electronics, вторая кроме TSMC компания, освоившая техпроцесс, отстаёт от своей тайваньской коллеги по объёмам выпуска примерно на порядок?
Наращивание глобальных (даже за вычетом КНР) объёмов полупроводниковых производств в мире в 10, 15 или даже 20 раз, требуемое для удовлетворения прогнозируемого аналитиками спроса на ИИ-вычисления, ставит перед всей чипмейкерской отраслью крайне непростую проблему. В условиях значительной инфляции, высоких ставок рефинансирования центробанков, дорогих кредитов вкладывать десятки и сотни миллиардов долларов в постройку новых фабрик нужно уже прямо сейчас, — не говоря уже об инвестициях в выращивание и обучение персонала, способного на них работать. А это огромные затраты, и стопроцентных гарантий их окупаемости ни одна аналитическая компания мира предоставить не готова.
Если же ажиотажный спрос на ИИ не будет удовлетворяться темпами, адекватными прогнозам той же McKinsey, это может привести в неприятным последствиям другого рода: чрезмерному вздорожанию доступных малых количеств аппаратного обеспечения, переходу ИИ-вычислений из разряда «основа любого цифровизованного бизнеса» в категорию technological luxury. — и тем самым к медленному увяданию всей этой темы. Либо, в лучшем случае, к насильственному переводу стремительного роста данного сегмента ИТ-рынка в куда более растянутый во времени, но и значительно менее воодушевляющий пологий режим.
Едва ли не впервые за свою историю человечество сталкивается с ситуацией, при которой столбовая вроде бы (по всем признакам и прогнозам) дорога технического прогресса оказывается перегорожена скучным, банальным, но оттого не менее неподъёмным шлагбаумом принципиальной нехватки ресурсов и средств для следования по ней. Каким образом удастся это противоречие разрешить и как в ходе такого процесса изменится ИТ-рынок — а он, безусловно, уже меняется, — увидим в самые ближайшие годы.
Источник: Максим Белоус, IT Channel News