総 GPU 枚数 (A100 など) : 300 基以上
ユーザー数(AI・メディア・SGE など) : 250 アカウント以上
削減コスト : 1750万円以上/月
ML Platformはサイバーエージェントの全社員・全職種の方々が利用できる機械学習基盤であり、NVIDIA A100などのハイエンドからNVIDIA L4などのエントリーモデルまでのGPUをご利用いただけます。本基盤ではGoogle ColabのようにJupyter Notebookを払い出したり、学習タスクのジョブ実行から推論エンドポイントのデプロイといったMLワークフローの管理をすることが可能です。
Member
ML Engineer : ML Platform に関する記事執筆、技術サポート、ドッグフーディング
Product Manager : 要件定義とタスク管理、ロードマップの策定、利用者とのコミュニケーション
Software Engineer : GPUaaS と AI Platform の新規機能開発・運用、関連 OSS の機能・性能検証
使用している主な技術
Kubernetes, Kubeflow, Kueue, Katib, KServe, Istio, Knative, Open MPI, NCCL, RDMA (RoCEv2), Argo CD, Go, Python, gRPC, Gatekeeper, Etna (内製基盤)
GPU 実利用率の改善に向けた取り組み

解決したい課題/ ユースケース
ML Platform上には数百基のGPUがありますが、多くのユーザーがいるため、GPUの空きが少なく、利用希望者がGPUを使えないケースがあります。一方で実際のGPU利用率は低く、GPUがアイドル状態になっていることがあります。
そこで弊チームは、利用されていないGPUの通知やCIU AI Platform Training(ジョブシステム)への誘導などを始め、いくつかの機能を追加しました。その中の一つがJupyter Notebookのカーネル分離機能です。この機能により、8時間以上GPUを使っていない場合は、自動的にNotebookからGPUが解放され、他のユーザーが使用できるようになります。再度コードを実行した際には、Google ColabのようにGPUが再度アタッチされて利用可能になる仕組みです。
これにより、2024年1月から半年でGPU利用率が20%向上して、適切にGPUが利用されている環境を作り出しました。また、不要なGPUが解放されることで本当に利用したいユーザーが使えるようになり、パブリッククラウドの利用に伴うコストを削減し、会社の機会損失を抑えることに繋がりました。
ML Platform の主な活用事例とユースケース
解決したい課題/ ユースケース
ML Platformはモデルの学習を始め様々なユースケースで使われています。その中でも特徴的なものを3つ紹介します。
まず1つ目がCyberAgentLMの学習です。これは弊社でフルスクラッチで学習している日本語の大規模言語モデル(LLM)であり、現時点で220億パラメーターのモデルが公開されています。この学習ではNVIDIA H100を80基使用し、ノード間帯域3.2Tbpsの広帯域なロスレスネットワークを備えたクラスタ上でマルチノードの分散学習が行われています。
2つ目はHuggingFace Spacesと弊基盤の推論システムとの連携です。この推論システムはサーバーレスの基盤となっており小売を始めいくつかのプロダクトで導入されています。前述のCALM3のデモアプリケーションでも利用されており、Spacesでプロンプトに入力するとオンプレの推論システムにリクエストが飛ぶようになっています。これにより高価なGPUを低コストなオンプレで稼働させ、継続的にデモ環境を提供できています。
最後はStable Diffusion WebUIの提供です。近年の画像生成AIブームに合わせて弊基盤上で簡単にStable Diffusionを立ち上げるフローを作りました。これによりエンジニア以外のビジネス・デザイナー職の方々にも気軽に生成AIを安価に利用できる環境を提供しています。
関連リンク
https://cloudnativedays.jp/cndt2023/talks/2024
サービス紹介
-

TiDB
1テーブルの行数 : 約5億行2025年のダウンタイム : 0 minクエリ実行数 : 約5千万/day Ti…
-

C4
登録スキーマ数(≒テーブル数) : 731平均イベント数 : 16.5 億イベント/日累計データ量 : 206…
-

wurfrahmen
Kubernetesで簡単にワークフロー管理を実現 導入サービス数 : 5実行されるワークフロー数 : 約4…
