日本の生成AIの発展まで目指す

2023 年 5 月、サイバーエージェントは 130 億パラメータの独自の日本語 LLM(大規模言語モデル)[1] を開発したことを発表、さらにその翌週には最大 68 億パラメータの商用利用可能な日本語 LLM[2] を一般公開した。
原子力やコンピューター登場と同等のインパクトがあると多くの研究者が語る「生成 AI」の登場。生成 AI の中でもテキストに特化した「LLM」は、その技術を応用した代表的なサービス「ChatGPT」を筆頭に、世界中で注目を浴びている。
時計の針を巻き戻すこと約1年半。現在のブームが起こるその前に、サイバーエージェントは着実に独自のLLM開発をスタートしていた。当時なぜ LLM を開発をすることになり、今回一般公開を行ったのか、またこの先目指す世界について開発の発起人である石上・開発責任者の玉津・ビジネス責任者の毛利に語ってもらった。

石上 亮介

2021 年 株式会社サイバーエージェント中途入社。前職は AI ベンチャーにてデータ分析業務に従事。現在は AI 事業本部で「極予測 LP」の開発、大規模言語モデル(LLM)をはじめとした基盤モデルプロジェクトのリードを担当。画像やテキストを対象としたマルチモーダルな AI の社会実装に従事している。

玉津 宗太郎

2018 年 サイバーエージェント新卒入社。アドテク事業部にて新規事業立ち上げに従事した後、AI事業本部で「極予測LP」のエンジニアリングマネジメント、プロダクトマネジメントを担当。大規模言語モデル(LLM)をはじめとした基盤モデルの事業応用に従事している。IPA 未踏スーパークリエイター認定。

毛利 真崇

2005 年サイバーエージェント新卒入社。広告代理事業の営業に従事した後、セントラルアカウントデザイン室を立ち上げ、広告プロダクトのアルゴリズム解析および運用設計、自動化ツールのプロダクトマネージャーを担当。2017 年に AI クリエイティブ Divを立ち上げ、AIや3DCG を活用した広告クリエイティブの効果予測や自動生成の研究開発のビジネス開発責任者・統括として従事。

なぜCAがLLM?1年半前にスタートした開発背景

LLM 開発は今から 1 年半前と、かなり早いタイミングでスタートしたと聞きました。当時なぜ開発を始めたのでしょうか

毛利:サイバーエージェントでは、2017 年から AI クリエイティブの部署を立ち上げ、AI を活用した効果の高い広告クリエイティブ制作に取り組んできました。実際にこれまで、効果予測 AI で広告効果を最大化する「極予測 AI」[3] や検索連動型広告の効果を改善する「極予測 TD」[4]、さらにランディングページを予測・制作し運用する「極予測 LP」[5] など多くのサービスを提供しています。 今回 LLM 開発の発起人となった機械学習エンジニアの石上と極予測 LP 開発責任者の玉津は、この AI クリエイティブ領域のサービス開発に携わっていたメンバーです。

石上:極予測シリーズで用いられている AI 技術の 1 つに、効果の高い広告のキャッチコピーを自動生成するAI がありますが、この精度向上に当時話題になっていた LLM が活きると考えました。LLM に関してモデルの大きさと学習データ量を増やすことで性能が上がることが分かってきており [6]、その方針で開発がスタートしました。

広告事業の延長線上で LLM 開発がスタートしたのですね。LLM により、具体的に何が可能になるのでしょうか

毛利:広告という点に絞っていうと、AI がより人間に近いコピーライティングができるようになります。LLM は簡単に表現すると、「大規模なテキストを読み込ませたスゴイ脳」を開発した、と言うとイメージしやすいかもしれません。
これまでの AI の活用方法では作りたいものに対して、関連するデータをその都度収集し、学習させていました。しかし、LLM では事前にあらゆる情報を学習させておきます。この事前学習を済ませた LLM(脳)は汎用性が高く、僅かな学習でより高品質な結果を出力できるようになります。

玉津:その「脳」に対し、対話データ等を用いて追加で学習を行うと「ChatGPT」のような高性能なチャットボットが出来上がる、というようなイメージです。

あくまで今回公開したのは「脳」となる基盤であって、ChatGPT のようなチャットボットサービスではない、と。

玉津:よく間違われることが多いのですが、その通りです。
私たちは ChatGPT のベースとなっている基盤モデル部分 ( 事前学習のみ行ったもの ) に該当するものを自社で開発し公開した、という位置付けになるので、ChatGPT と比較できるものではないのですし 、そもそもChatGPT に勝とうとしてこの開発を始めたわけではありません。

ではなぜ、今回独自で LLM を開発したのでしょうか。GPT-3、GPT-4 をはじめとする既存の LLM を活用するのも一手では?

石上:これが今回、自社で LLM を開発する決断を下した最大の理由ですが、既存のものは LLM 自体のカスタマイズができないという問題が存在していました。私たちはあくまで精度の高い広告キャッチコピーを作りたかったので、例えば、媒体やターゲットごとに合わせた自然な日本語でテキストを生成したい。しかし、GPT-3・GPT-4といったLLMはそもそも学習データが英語中心であったり、チューニング自体ができないモデルもあったりと、出来ることに制限がありました。
そこで、自分たちで LLM を開発し、汎用的なものは GPT-3や GPT-4を使いつつ、より独自性がより求められる部分は日本語データを学ばせた自社 LLM を使うなど、使い分けをしていこうとなったのです。
さらに自社で LLM 開発をしておけば、効果予測データをもとに効果の高い広告をフィードバックし、LLM を学習させていくこともできます。こうして、学習期間約 1 年半をかけ日本語に強い LLM が出来上がりました。

鍵はスピード感。全て自社完結のLLM開発

LLM 開発をすること自体、とても難易度が高いように思えますが、必要な開発アセットは何でしたか

石上:大量のデータを扱う LLM 開発ができるエンジニアや研究者が必要なのはもちろんのこと、計算リソース(GPUと呼ばれるマシンが一般的)の確保も大事でした。
開発を行なっていたのは、私や玉津など AI クリエイティブ領域に所属するエンジニア数名が中心となっていましたが、研究開発組織「AI Lab」[7] の NLP チームと日本語データに関する連携も行なっていました。

さらにモデルに学習をさせるための計算リソースの準備も必須。LLM を開発する上で、この計算リソースが多ければ多いほどより早く学習が終わります。日本に最先端 GPU 自体を仕入れること自体のハードルが高い中で、NVIDIA と業務提携 [8]をしていることで最新の GPU である NVIDIA H100 を導入 [9] することができたのも大きかったです。ここは社内の専門インフラ組織「CIU」と密な連携をとりながら実現をしました。

多角的な技術力・技術投資がないと実現できなかったプロジェクトだったのですね

玉津:そうですね。LLM の学習には大きな費用が必要となるため、事業として見た場合、効率的に高品質なモデルを開発するノウハウの蓄積も重要です。サイバーエージェントは、全ての開発を社内で完結しているのでノウハウが蓄積できますし、かつ少数精鋭で意思決定しながらスピーディーに進められる強さがあります。
とにかく流れの早い生成 AI 領域において開発を進めるのは、経営陣の技術理解があり、技術領域の垣根を越えて連携が取れる体制と文化がなかったら成し得なかったことだと思います。

日本の AI 技術に貢献したい。モデル公開に踏み切った意図

今年 5 月、130 億パラメータの LLM 開発を発表※。さらにその翌週には 68 億パラメータのモデル自体を公開しました。多くの反響がありましたが、なぜモデルを公開したのでしょうか?

石上:正直、予想以上に反響がありました。この 2 つのモデルの違いは学ばせている学習データが異なっており、オープンにした 68 億のモデルは、wikipedia・コモンクロールなど全て透明性のあるデータをもとにモデルを作っています。
※130 億はパラメータのモデルには、一部自社データが含まれる

モデルの公開については、LLM 開発の構想を考えた時からすでに視野に入れており、実は最初からオープンなものを作りたいと思っていました。
というのも、そもそも日本語に強い LLM というものが日本全体で少なく、そこに課題を感じていたのです。海外はフェアユース※という文化があり技術発展への理解が深いため使えるデータも多い印象ですが、日本ではまだそこが弱い。学習できるオープンな日本語文章のデータが少なかったり、計算リソースも限られている。
※一定の条件を満たしていれば、著作権者から許可を得なくても、著作物を再利用できることを示した法原理

となると、いつまで経っても海外製の AI に遅れをとってしまう。これを本気でやっていくには、1 社だけでは無理で、国や企業・アカデミアと連携して LLM を作る必要があるのです。自分たちだけで技術を独占するのではなく、オープンなものを作って多くの人を巻き込んで性能を上げていき、日本の技術競争力に貢献する必要があると考えています。そこで今回、一般公開を行いました。

実際に、商用利用可能なLLMは小さなサイズのモデルも含め6種類公開されました [10]

玉津:ビジネスとして見た時に、モデルサイズは大きければ大きいほど良い、というものではありません。モデルサイズ以外の条件が同じ場合、大きければ生成品質は高くなる可能性は高いですが、モデルの運用コストもより必要になってくるのでそのバランスが必要で、応用場面に応じて使い分けが必要になってきます。

今回公開したモデルは、アカデミアなどの研究室はもちろん、個人の研究者 / 開発者が自身の PC 等でも動かせるように複数のサイズのモデルを公開しました。多くの人が触れることで、裾野を広げることが大事だと思ったからです。
引き続き性能向上を目指している最中ですが、日本語の性能が 100%完璧でないタイミングで公開することで、ここは良い・ここはまだだね、という皆さんのフィードバックをもとに日本全体でモデルを作っていきたいと考えています。

サイバーエージェントの企業競争力の源泉へ

今後も期待される LLM 開発ですが、どのようなことを視野に入れていますか?

石上:研究開発という点では、より性能が良いモデル開発を目指していきたいと思います。また LLM 開発は大規模な学習が必要なので、1 つのモデルを作るのに数ヶ月 ~ 数年など膨大な時間がかかるため失敗が許されないシビアな開発です。開発自体に関するノウハウもまだ少ないので、積極的に外部にも共有ができればと思います。

毛利:ビジネスとしては、まずは LLM を活用し、既存サービスの精度上げに引き続き注力していきます。すでに社内の極予測 AI[11] や極予測 TD[12] における広告コピー生成などの機能において活用を進めていますが、広告以外の当社サービス・・・医療[13] やチャットボット [14] などにおいても応用が始まっています。
また今後は、他の企業と連携して業界に特化した独自データを学習させた「業界特化型の LLM 構築」を行うことで、これまでの既存生成 AI サービスでカバーできなかった専門用語 / 専門知識に強い LLM を構築し、それを日本に還元していく・・というような取り組みも行いたいと思っています。LLM をベースに、幅広いビジネス展開がまさに始まろうとしています。

LLM は、サイバーエージェントの競争力の源泉になり得る、と。

毛利:広告領域では間違いなくそうなりますね。今後は、その使い道を広げていくことが大事だと思っています。

石上:ここ半年で起きた「ChatGPT モーメント」のような時代の波は、数年のうちにまた起きると思っています。 そこに太刀打ちできる AI 開発の体制を作っておくことが大事で、それが会社としての競争力にも繋がるのではないでしょうか。
ですがそれを自社だけで抱えるのではなく、多くの企業・アカデミア・国と連携しながら、日本全体の技術力向上に貢献できればと思います。

参考資料

  1. https://www.cyberagent.co.jp/news/detail/id=28797
  2. https://www.cyberagent.co.jp/news/detail/id=28817
  3. https://www.cyberagent.co.jp/news/detail/id=24647
  4. https://www.cyberagent.co.jp/news/detail/id=24670
  5. https://www.cyberagent.co.jp/news/detail/id=28185
  6. OpenAI がに公開した論文『Scaling Laws for Neural Language Models』2020 年 1 月 公開
  7. https://research.cyberagent.ai/
  8. サイバーエージェントと NVIDIA、高品質なデジタルヒューマン開発を加速 日本市場固有ニーズに対応した 3DCG 技術
    の機能拡充に向け協業を開始
    https://www.cyberagent.co.jp/news/detail/id=27727
  9. 大規模な AI 開発に対応する「NVIDIA DGX H100」を国内初導入 -80 基の「NVIDIA H100 Tensor コア GPU」で AI 開発を大幅強化、機械学習モデルの大規模化・構築の高速化へ-
    https://www.cyberagent.co.jp/news/detail/id=28484
  10. https://huggingface.co/cyberagent
  11. 極予測 AI、大規模言語モデルを活用した広告コピー自動生成機能を実装 ―自社 LLM 技術および ChatGPT の活用により画像やターゲットを考慮した生成が可能に―
    https://www.cyberagent.co.jp/news/detail/id=28828
  12. 極予測 TD、自社 LLM 技術および GPT-4 を活用した「繰り返し試行生成機能」を開発 ―生成・予測・フィードバックの複数回試行を自動化し、効果予測スコアを向上 ―
    https://www.cyberagent.co.jp/news/detail/id=28830
  13. 医療 AI カンパニー MG-DX、薬剤師の対人業務をサポートする次世代薬局ソリューション「AI 薬師 ®」において大規模言語モデルの活用を開始
    https://www.cyberagent.co.jp/news/detail/id=28881
  14. AI Shift、カスタマーサポートに特化した各企業専用 LLM 構築サービスを提供開始
    https://www.cyberagent.co.jp/news/detail/id=28841