Не дозволяйте сховищам стати вузьким місцем у навчанні моделей

Говорять, що технологічні компанії або намагаються отримати графічні процесори, або збираються їх придбати. У квітні генеральний директор Tesla Ілон Маск придбав 10 000 графічних процесорів і заявив, що компанія продовжить купувати велику кількість графічних процесорів у NVIDIA. На підприємстві ІТ-персонал також докладає всіх зусиль, щоб гарантувати постійне використання графічних процесорів, щоб максимізувати віддачу від інвестицій. Однак деякі компанії можуть виявити, що в той час як кількість графічних процесорів збільшується, бездіяльність графічного процесора стає більш серйозною.

Якщо історія чогось навчила нас про високопродуктивні обчислення (HPC), це те, що сховищами та мережами не слід приносити в жертву за рахунок надмірної уваги до обчислень. Якщо сховище не може ефективно передавати дані до обчислювальних блоків, навіть якщо у вас найбільше графічних процесорів у світі, ви не досягнете оптимальної ефективності.

За словами Майка Матчетта, аналітика Small World Big Data, менші моделі можна виконувати в пам’яті (RAM), що дозволяє більше зосередитися на обчисленнях. Однак більші моделі, такі як ChatGPT з мільярдами вузлів, не можна зберігати в пам’яті через високу вартість.

«Ви не можете розмістити мільярди вузлів у пам’яті, тому сховище стає ще важливішим», — каже Матчетт. На жаль, зберігання даних часто ігнорується в процесі планування.

Загалом, незалежно від варіанту використання, у процесі навчання моделі є чотири загальні моменти:

1. Модельне навчання
2. Застосування висновку
3. Зберігання даних
4. Прискорене обчислення

Під час створення та розгортання моделей більшість вимог надають пріоритет швидкому підтвердження концепції (POC) або середовищам тестування для ініціювання навчання моделі, при цьому потреби у зберіганні даних не приділяють першочергової уваги.

Однак проблема полягає в тому, що навчання або розгортання висновків може тривати місяцями або навіть роками. Протягом цього часу багато компаній швидко збільшують розміри своїх моделей, і інфраструктура має розширюватися, щоб відповідати зростаючим моделям і наборам даних.

Дослідження, проведене Google щодо мільйонів навчальних навантажень ML, показує, що в середньому 30% навчального часу витрачається на конвеєр вхідних даних. Хоча попередні дослідження були зосереджені на оптимізації графічних процесорів для прискорення навчання, багато проблем все ще залишається в оптимізації різних частин конвеєра даних. Коли у вас є значна обчислювальна потужність, справжнім вузьким місцем стає те, як швидко ви можете вводити дані в обчислення, щоб отримати результати.

Зокрема, проблеми зі зберіганням та керуванням даними вимагають планування зростання даних, що дозволить вам безперервно отримувати цінність даних у міру просування, особливо коли ви наважуєтеся на більш складні випадки використання, такі як глибоке навчання та нейронні мережі, які висувають вищі вимоги до зберігання з точки зору ємності, продуктивності та масштабованості.

зокрема:

Масштабованість
Машинне навчання вимагає обробки величезних обсягів даних, і зі збільшенням обсягу даних підвищується точність моделей. Це означає, що компанії повинні щодня збирати та зберігати більше даних. Коли сховище неможливо масштабувати, інтенсивне робоче навантаження створює вузькі місця, обмежуючи продуктивність і призводячи до дорогого простою GPU.

Гнучкість
Гнучка підтримка кількох протоколів (включаючи NFS, SMB, HTTP, FTP, HDFS і S3) необхідна для задоволення потреб різних систем, а не обмеження одним типом середовища.

Затримка
Затримка вводу/виводу має вирішальне значення для створення та використання моделей, оскільки дані читаються та перечитуються кілька разів. Зменшення затримки введення/виведення може скоротити час навчання моделей на дні або місяці. Швидша розробка моделі безпосередньо означає більші переваги для бізнесу.

Пропускна здатність
Пропускна здатність систем зберігання має вирішальне значення для ефективного навчання моделі. Процеси навчання включають великі обсяги даних, як правило, у терабайтах на годину.

Паралельний доступ
Щоб досягти високої продуктивності, моделі навчання розбивають дії на кілька паралельних завдань. Це часто означає, що алгоритми машинного навчання отримують доступ до тих самих файлів із кількох процесів (потенційно на кількох фізичних серверах) одночасно. Система зберігання даних повинна обслуговувати одночасні вимоги без шкоди для продуктивності.

Завдяки видатним можливостям у низькій затримці, високій пропускній здатності та масштабному паралельному вводу-виводу Dell PowerScale є ідеальним доповненням до обчислень із прискоренням GPU. PowerScale ефективно скорочує час, необхідний для аналізу моделей, які навчають і тестують багатотерабайтні набори даних. У флеш-сховищі PowerScale пропускна здатність збільшується у 18 разів, усуваючи вузькі місця вводу-виводу, і їх можна додати до існуючих кластерів Isilon, щоб прискорити та розблокувати цінність великих обсягів неструктурованих даних.

Крім того, можливості багатопротокольного доступу PowerScale забезпечують необмежену гнучкість виконання робочих навантажень, дозволяючи зберігати дані за одним протоколом і отримувати доступ за іншим. Зокрема, потужні функції, гнучкість, масштабованість і функціональність корпоративного рівня платформи PowerScale допомагають вирішити такі проблеми:

- Прискорити інновації до 2,7 разів, скоротивши цикл навчання моделі.

- Усуньте вузькі місця вводу-виводу та забезпечте швидше навчання та перевірку моделі, покращену точність моделі, підвищену продуктивність науки про дані та максимальну віддачу від інвестицій у обчислення за рахунок використання функцій корпоративного рівня, високої продуктивності, паралелізму та масштабованості. Підвищуйте точність моделі за допомогою глибших наборів даних із вищою роздільною здатністю, використовуючи до 119 ПБ ефективної ємності для зберігання в одному кластері.

- Досягніть масштабного розгортання, створивши невеликі та незалежно масштабовані обчислювальні й сховища, забезпечуючи надійний захист даних і параметри безпеки.

- Підвищте продуктивність науки про дані за допомогою наявної аналітики та попередньо перевірених рішень для швидшого розгортання з низьким ризиком.

- Використання перевірених конструкцій на основі найкращих у своєму класі технологій, включаючи прискорення GPU NVIDIA та еталонну архітектуру з системами NVIDIA DGX. Висока продуктивність і паралелізм PowerScale відповідають вимогам до продуктивності зберігання на кожному етапі машинного навчання, від збору даних і підготовки до навчання моделі та висновку. Разом із операційною системою OneFS усі вузли можуть безперебійно працювати в одному керованому OneFS кластері з такими функціями корпоративного рівня, як керування продуктивністю, керування даними, безпека та захист даних, що забезпечує швидше завершення навчання моделі та валідацію для компаній.


Час публікації: 3 липня 2023 р