На якому графічному процесорі працює ChatGPT?

2024 Від admin

ChatGPT проходив навчання Інфраструктура та суперкомп’ютери Azure після випуску A100s, на якому навчався ChatGPT. Графічний процесор — це 826-міліметровий квадратний кристал із 54,2 мільярда транзисторів, виготовлений TSMC за 7-нм техпроцесом.

Платформа, побудована на архітектурі Nvidia HopperTM, має Графічний процесор Nvidia H200 Tensor Core з розширеною пам’яттю для керування великими обсягами даних для високопродуктивних обчислень і генеративних завдань ШІ.

ChatGPT працює далі архітектура великої мовної моделі (LLM), створена OpenAI під назвою Generative Pre-trained Transformer (GPT). З моменту запуску безкоштовна версія ChatGPT працювала на точно налаштованій моделі серії GPT-3.5 до травня 2024 року, коли стартап оновив модель до GPT-4o.

Тим часом Nvidia надає критично важливу інфраструктуру, необхідну для розробки та запуску інструментів ШІ, таких як ChatGPT. Це найбільший виробник так званих прискорювачів ШІ, продажі яких різко зросли за останні два роки.

У реальних програмах, таких як ChatGPT, фреймворки глибокого навчання, такі як PyTorch, справляються з тонкощами CUDA, що робить його доступним для розробників без необхідності писати код CUDA безпосередньо.

25 000 графічних процесорів NVIDIA A100 Вартість навчання GPT-4 OpenAI показало, що воно коштувало їм 100 мільйонів доларів і тривало 100 днів, використовуючи 25 000 графічних процесорів NVIDIA A100. Сервери з цими графічними процесорами споживають близько 6,5 кВт кожен, що призводить до приблизно 50 ГВт-год споживання енергії під час навчання.