Nedovolte, aby se úložiště stalo klíčovým úzkým místem v modelovém tréninku

Říká se, že technologické společnosti buď shánějí GPU, nebo jsou na cestě k jejich získání. V dubnu koupil generální ředitel Tesly Elon Musk 10 000 GPU a prohlásil, že společnost bude i nadále nakupovat velké množství GPU od NVIDIA. Na podnikové straně IT pracovníci také tvrdě tlačí na zajištění toho, aby GPU byly neustále využívány k maximalizaci návratnosti investic. Některé společnosti však mohou zjistit, že zatímco počet GPU roste, nečinnost GPU se stává závažnější.

Pokud nás historie něco naučila o vysoce výkonných počítačích (HPC), pak je to to, že úložiště a sítě by neměly být obětovány na úkor přílišného zaměření na výpočty. Pokud úložiště nedokáže efektivně přenášet data do výpočetních jednotek, i když máte nejvíce GPU na světě, nedosáhnete optimální účinnosti.

Podle Mikea Matchetta, analytika společnosti Small World Big Data, lze menší modely spouštět v paměti (RAM), což umožňuje více se soustředit na výpočty. Větší modely jako ChatGPT s miliardami uzlů však nelze uložit do paměti kvůli vysokým nákladům.

„Do paměti se nevejdou miliardy uzlů, takže úložiště je ještě důležitější,“ říká Matchett. Ukládání dat je bohužel během procesu plánování často přehlíženo.

Obecně, bez ohledu na případ použití, existují čtyři společné body v procesu trénování modelu:

1. Modelový trénink
2. Aplikace pro odvození
3. Ukládání dat
4. Accelerated Computing

Při vytváření a nasazování modelů většina požadavků upřednostňuje prostředí rychlého ověření konceptu (POC) nebo testovací prostředí pro zahájení školení modelu, přičemž potřebam ukládání dat není věnována nejvyšší pozornost.

Výzva však spočívá ve skutečnosti, že zavádění školení nebo odvození může trvat měsíce nebo dokonce roky. Mnoho společností během této doby rychle zvětšuje velikost svých modelů a infrastruktura se musí rozšířit, aby se přizpůsobila rostoucím modelům a datovým sadám.

Výzkum společnosti Google týkající se milionů pracovních zátěží školení ML ukazuje, že průměrně 30 % školícího času je věnováno vstupnímu datovému kanálu. Zatímco minulý výzkum se zaměřoval na optimalizaci GPU za účelem urychlení školení, mnoho problémů stále zůstává při optimalizaci různých částí datového potrubí. Když máte značný výpočetní výkon, skutečným úzkým hrdlem se stává, jak rychle dokážete vložit data do výpočtů, abyste získali výsledky.

Konkrétně výzvy v oblasti ukládání a správy dat vyžadují plánování růstu dat, což vám umožní průběžně získávat hodnotu dat, jak postupujete, zvláště když se pouštíte do pokročilejších případů použití, jako je hluboké učení a neuronové sítě, které kladou vyšší nároky na úložiště z hlediska kapacity, výkonu a škálovatelnosti.

Zejména:

Škálovatelnost
Strojové učení vyžaduje zpracování obrovského množství dat a se zvyšujícím se objemem dat se zlepšuje i přesnost modelů. To znamená, že podniky musí každý den shromažďovat a uchovávat více dat. Když úložiště nelze škálovat, datově náročná pracovní zátěž vytváří úzká hrdla, omezuje výkon a má za následek nákladnou dobu nečinnosti GPU.

Flexibilita
Flexibilní podpora pro více protokolů (včetně NFS, SMB, HTTP, FTP, HDFS a S3) je nezbytná pro splnění potřeb různých systémů a není omezena na jeden typ prostředí.

Latence
I/O latence je kritická pro vytváření a používání modelů, protože data jsou čtena a znovu načítána několikrát. Snížení I/O latence může zkrátit dobu školení modelů o dny nebo měsíce. Rychlejší vývoj modelu se přímo promítá do větších obchodních výhod.

Propustnost
Propustnost úložných systémů je zásadní pro efektivní modelování. Tréninkové procesy zahrnují velké množství dat, obvykle v terabajtech za hodinu.

Paralelní přístup
Pro dosažení vysoké propustnosti rozdělují školicí modely aktivity do více paralelních úloh. To často znamená, že algoritmy strojového učení přistupují ke stejným souborům z více procesů (potenciálně na více fyzických serverech) současně. Úložný systém musí zvládat souběžné požadavky bez kompromisů ve výkonu.

Díky svým vynikajícím schopnostem v oblasti nízké latence, vysoké propustnosti a rozsáhlých paralelních I/O je Dell PowerScale ideálním doplňkem úložiště pro výpočty s akcelerací GPU. PowerScale efektivně snižuje čas potřebný pro modely analýzy, které trénují a testují víceterabajtové datové sady. V úložišti PowerScale all-flash se šířka pásma zvyšuje 18krát, čímž se eliminují úzká místa I/O, a lze jej přidat do stávajících clusterů Isilon, aby se urychlila a odemkla hodnota velkého množství nestrukturovaných dat.

Možnosti víceprotokolového přístupu PowerScale navíc poskytují neomezenou flexibilitu pro spouštění pracovních úloh a umožňují ukládání dat pomocí jednoho protokolu a přístup k nim pomocí jiného. Konkrétně výkonné funkce, flexibilita, škálovatelnost a funkce na podnikové úrovni platformy PowerScale pomáhají řešit následující výzvy:

- Zrychlete inovace až 2,7krát a zkraťte cyklus tréninku modelu.

- Eliminujte I/O úzká místa a poskytněte rychlejší školení a ověřování modelů, zlepšenou přesnost modelu, zvýšenou produktivitu datové vědy a maximální návratnost investic do výpočetní techniky využitím podnikových funkcí, vysokého výkonu, souběžnosti a škálovatelnosti. Zvyšte přesnost modelu pomocí hlubších datových sad s vyšším rozlišením využitím až 119 PB efektivní úložné kapacity v jednom clusteru.

- Dosáhněte nasazení ve velkém měřítku zahájením malých a nezávisle škálovatelných výpočetních a úložných systémů, které poskytují robustní možnosti ochrany dat a zabezpečení.

- Zlepšete produktivitu datové vědy pomocí vlastní analýzy a předem ověřených řešení pro rychlejší nasazení s nízkým rizikem.

- Využití osvědčených návrhů založených na nejlepších technologiích, včetně akcelerace GPU NVIDIA a referenčních architektur se systémy NVIDIA DGX. Vysoký výkon a souběžnost PowerScale splňují požadavky na výkon úložiště v každé fázi strojového učení, od získávání dat a přípravy až po trénování modelů a odvození. Společně s operačním systémem OneFS mohou všechny uzly bezproblémově fungovat v rámci stejného clusteru řízeného OneFS s funkcemi na podnikové úrovni, jako je správa výkonu, správa dat, zabezpečení a ochrana dat, což umožňuje rychlejší dokončení modelového školení a ověřování pro podniky.


Čas odeslání: Červenec-03-2023