スモール言語モデル（SLM）／スーパー・タイニー言語モデル（STLM）白書2024年版

スモール言語モデル（SLM）／
スーパー・タイニー言語モデル（STLM）白書2024年版
LLMのファインチューニングから最適化、量子化まで-

■概要■

　2024年以降、AIコミュニティでは、LLMのファインチューニング、最適化、より実用的なモデル追及の流れの一環で、スモール言語モデル（SLM）、スーパー・タイニー言語モデル（STLM）、量子化LLMの有効性に関する探求が急速に高まり、これらへのシフトが促進されている。
　こうしたコンパクトなモデルは特定のデータセットで微調整され、さまざまな性能評価で卓越した能力が実証されつつある。これらのモデルは、性能とリソース利用のバランスをとり、計算資源を最適に管理しながら、適切な性能を提供することを約束する。
　これらのモデルの傑出した性能は、コンパクトなモデルが、大型LLMに代わる実現可能な選択肢を提供することを示唆している。この画期的な進歩は、言語モデルを展開する上で重要な意味を持ち、効率と性能が両立する道を示している。
　本白書は、AI業界、LLMの研究者層で高い注目を集めているスモール言語モデル（SLM）、スーパー・タイニー言語モデル（STLM）、LLMのファインチューニングからから計算要件、最適化、量子化まで、その全容および最新動向を解説したレポートである。

-ＣＯＮＴＥＮＴＳ-

序

＜1＞AI性能向上と言語モデルの新たな展望
　・概況・近況
　・生成系AIツールのROI向上
　・LLM、SLM、STLMが注目を集める背景

＜2＞LLM、SLM、STLMに関する包括的な比較分析
　・概説
　・持続可能なAIのための超小型言語モデルの出現
　・スモール言語モデルは本当に言語モデルの未来なのか？

＜3＞言語モデルの最適化技術
　・概説
　・システム設計と最適化
　　-専門家混合モデル（MoE）
　　-LLMの量子化
　　-MoEの圧縮
　・言語モデルの微調整
　・AIのワークロードに応じたリソース配分の最適化
　・関連研究
　　-マサチューセッツ工科大学他研究チーム　「LLM圧縮の評価： AI言語モデル開発における効率性、信頼性、倫理性のバランス」
　　-ダイヤルパッド　「小さな大規模言語モデル」

＜4＞LLM評価の効率化とコスト削減
　・概説
　・マルチアーム・バンディットにおけるベストアーム識別
　・LLMの性能評価関数
　・LLM性能評価ベンチマーク
　・研究チーム、参入企業動向
　　-コーネル大学／カリフォルニア大学サンディエゴ校研究チーム　
　　「LLM評価の効率化とコスト削減を実現するマルチアーム・バンディット・アルゴリズム」

＜5＞GPU使用量の削減とLLM事前トレーニングシナリオの変化
　・時間とGPUリソースへの多大な投資が必要とされるLLM開発
　・研究チーム、参入企業動向
　　-Yandex　「GPU使用量を20％削減し、LLMトレーニングに革命をもたらすオープンソースAIツール：YaFSDP」

＜6＞LLMを導入する際のコストと性能のトレードオフ最適化
　・費用対効果の高いLLM
　・研究チーム、参入企業動向
　　-UC Berkeley／Anyscale／Canva研究チーム　「費用対効果の高いLLMルーティングのためのオープンソースフレームワーク」

＜7＞精度と効率のバランスを保持しながら複雑なタスクを実行するモデル
　・概説
　・研究チーム、参入メーカー、参入ベンダー動向
　　-Nvidia AI　「単一GPUで4倍のワークロードを実行できる新しいLLM」
　　他

＜8＞研究開発プロセスの自動化と最適化を目的としたAIツール
　・概説
　・研究チーム、参入メーカー、参入ベンダー動向
　　-マイクロソフト　「研究開発プロセスの自動化と最適化を目的としたオープンソースAIツール：RD-Agent」

＜9＞大規模言語モデル（LLM）の最適化
　・CPU上で大規模言語モデル（LLM）の最適化
　・研究チーム、参入企業動向
　　-API Collective Communications Libraryを利用した分散推論最適化の手法

＜10＞AI性能向上を阻む要因
　・AIの開発生産性とAI導入・評価の間に生まれている断絶
　・AIの課題を浮き彫りにするGitLabのDevSecOpsレポート

＜11＞リソース効率に優れた代替手段としての小型言語モデル（SLM）の可能性
　・概説
　・スモール言語モデル（SLM）
　・ミニCPM
　・関連研究
　　-MiniCPM：スケーラブルな学習戦略で小さな言語モデルの可能性を解き明かす
　・モデル事例
　　-Ai2　「オープンソースのマルチモーダル言語モデルファミリー：Molmo」

＜12＞パフォーマンス向上に最適化されたスモール言語モデル
　・概説
　・研究チーム、参入メーカー、参入ベンダー動向
　　-AMD　「LLaMA2モデルアーキテクチャに最適化されたスモール言語モデルシリーズ」

＜13＞スモール言語モデル（SLM）の学習
　・概説
　・インストラクションのチューニング
　・説明のチューニング
　・関連研究
　　-ケンブリッジ大学　「スモール言語モデル：調査、測定、洞察」
　　-マイクロソフト・リサーチ　「小さな言語モデルへの推論学習：Orca」

＜14＞スモール言語モデル（SLM）の推論能力向上
　・概説
　・SLMの推論能力の向上
　・SLMの概要
　・SLMのアーキテクチャ
　　-自己注意のタイプ
　　-フィードフォワード・ニューラルネットワークのタイプ
　　-フィードフォワード・ニューラルネットワークの中間比
　　-フィードフォワード・ニューラルネットワークの活性化関数
　　-レイヤー正規化のタイプ
　　-語彙サイズ
　・モデル・アーキテクチャの革新
　・関連研究
　　-マイクロソフト・リサーチ　「算数におけるSLMの可能性：Orca-Math」

＜15＞スーパー小規模言語モデル（STLM）
　・概説
　・パラメーターの削減
　・枝刈り
　・量子化
　・低ランク因数分解
　・データの質とトレーニングの効率
　・関連研究

＜16＞CPUやx86アーキテクチャ上でのAI・ディープラーニングの実装
　・GPUを含む特殊なハードウェアやコプロセッサが抱える課題
　　-CPU上のAIの必要性
　　-スパース性の役割
　　-最新のCPUがもたらすチャンスと課題
　・関連研究
　　-ライス大学アント・グループ　「コモディティCPUをGPUのような特殊プロセッサと同等にできるシステムの設計」
　　-CPU上でLLMの最適化／推論と効率を向上させるテクニック

＜17＞量子化LLM
　・概説
　・大規模言語モデルの展開を変えるモデル量子化の新境地
　・大規模言語モデルの量子化に革命を起こすデータフリーアルゴリズム
　・GPTQアルゴリズム
　・LLMのための新しい量子化技術
　・LLMの重みをほぼ損失なく圧縮できる圧縮フォーマットと量子化技術
　・効率的な推論技術に関する取り組み
　・ベクトル量子化（VQ）を用いた大規模ネットワークのポストトレーニング量子化
　・関連研究
　　-MIT、NVIDIA、UMass Amherst、MIT-IBM Watson AI Labの研究グループ　
　　　「量子化を改良する新しいアプローチであるQoQ（Quattuor-Octo-Quattuor）アルゴリズム」
　　-コーネル大学研究チーム　「非干渉性処理による量子化（QuIP）」
　　-SpQR (Sparse-Quantized Representation＊）:　＊大きな言語モデルの重みをほぼ損失なく圧縮できる圧縮フォーマットと量子化技術
　　-LLMの効率とパフォーマンスを橋渡しするAI手法：OmniQuant
　　-Hugging Face　「メモリ効率と計算速度のトレードオフを最適化するGPTQ量子化」
　　-テンセント　データフリーアルゴリズム　「EasyQuant」
　　-カリフォルニア大学バークレー校　「大規模言語モデルサービングの品質とスピードを両立させる密とパースの量子化」
　　-マイクロソフト、シドニー大学、ラトガース大学の研究チーム　「FP6-LLM：大規模言語モデルのためのGPUベース量子化」
　　-クアルコムAIリサーチ、GPTVQ法を提案：
　　　ベクトル量子化（VQ）を用いた大規模ネットワークのポストトレーニング量子化のための高速機械学習手法
　　-Q-GaLoreリリース：機械学習モデルの事前学習と微調整のためのメモリ効率の高い学習アプローチ

＜18＞量子化と低ランク射影・低ランク適応によるメモリ使用量削減
　・概説
　・低ランクの適応とトレーニング
　・低精度トレーニング
　・関連研究
　　-カリフォルニア工科大学／メタAI他　「Q-GaLore：INT4射影とレイヤー適応的低ランク勾配による量子化GaLore」

＜19＞量子化考慮学習（QAT）／ポストトレーニング量子化(PTQ)／量子化パラメータ効率的微調整(Q-PEFT)
　・概説
　・LLMのポストトレーニング量子化
　・LLMの量子化を考慮したトレーニング
　・LLMの量子化パラメータによる効率的な微調整

＜20＞ニューラルネットワークの量子化
　・概説
　　-ニューラルネットワークの量子化
　　-量子化グリッドの種類とその柔軟性
　　-ベクトル量子化の課題
　・関連研究
　　-クアルコムAIリサーチ　「LLM量子化における次元性の恩恵」

＜21＞量子化パラメータチューニングと言語モデルの微調整効率化
　・概説
　・関連研究
　　-LQ-LoRA：言語モデルの微調整を効率化する低ランク量子化行列分解を可能にするLoRAのバリエーション

＜22＞6ビット量子化(FP6)
　・概説
　・量子化のためのシステムサポート
　・関連研究
　　-FP6-LLM：FP6中心のアルゴリズム・システム協調設計による大規模言語モデルの効率的な提供

＜23＞メモリ消費・ストレージ削減
　・プルーニング
　・パラメータ効率的ファインチューニング（PEFT）
　・学習後のデルタ圧縮

＜24＞ミニCPM
　・概説
　・関連研究
　　-清華大学コンピューター科学技術学部／モデルベスト社　「スケーラブルな学習戦略で小さな言語モデル：MiniCPM」

＜25＞コンパクト言語モデル／TinyLlama
　・概説
　・関連研究
　　-StatNLP研究グループ／シンガポール工科デザイン大学　「オープンソースの小型言語モデル：TinyLlama」

＜26＞標準的なPCで実行可能なLLM／SLM
　・概説
　・関連研究
　　-Stability AI　「標準的なPCで実行可能な画像生成系AI：Stabile Diffusion XL 0.9」

＜27＞SLMの作成と配布を目的としたオープンソースツール
　・概説
　・研究チーム、参入企業動向
　　-Arcee AI　「高性能なSLM作成に向けたモデル蒸留を変換するオープンソースツール：DistillKit」

＜28＞低ランク勾配更新によりLLMのフルパラメータ学習を可能にする技術
　・概説
　・関連研究
　　-量子化と低ランク射影を組み合わせによるメモリ制約に対する解決策

＜29＞商用化されている主なSLM
　・概説
　・GPT-4o mini
　・Mistral-Nemo
　　-概要
　　-特性・メリット
　・SmolLM
　　-概要
　　-特性・メリット
　　-マイクロソフトの軽量AI
　・TinyLLaVA
　・GTE-tiny
　・TinyLlama

＜30＞参入企業動向
　・インテル　「CPU上のLLMをより効率的に展開する新しいAIアプローチ」
　・Hugging Face　「1億3500万から17億パラメータまでの高性能小型言語モデルによるオンデバイスAI‘SmolLM」
　・Arcee AI　「効率的で高性能な小型言語モデルの作成に向けたモデル蒸留を変換：　DistillKit」

＜31＞その他主な研究開発・研究チーム動向
　・マイクロソフトAIチーム　「卓越した推論と言語理解能力を示す27億パラメータの小規模言語モデル：Phi-2」
　・ポツダム大学、クアルコムAIリサーチ他研究チーム　「ハイブリッド大小言語モデルを用いたクアルコムAIリサーチによる機械学習アプローチ」
　・マサチューセッツ工科大学／プリンストン大学／NVIDIA／Together AI　「デルタを1ビットまで量子化：BitDelta」
　・モハメド・ビン・ザイードAI大学、オーストラリア国立大他研究チーム　「小規模言語モデル領域で最先端の性能を発揮するMobiLlama」
　・上海AI研究所OpenGVLab ／香港大学　「大規模言語モデルのための効率的な量子化を考慮した学習：EfficientQAT」

申込フォーム

お問合せ

ICT・エレクトロニクス

「5G×ユースケース（事例）」に関する網羅的な調査: 出版月　2024年12月

ICT・エレクトロニクス

「5G×ユースケース（事例）」に関する網羅的な調査: 出版月　2024年11月

ICT・エレクトロニクス

「デジタルツイン×ユースケース（事例）」に関する網羅的な調査: 出版月　2024年11月

スモール言語モデル（SLM）／スーパー・タイニー言語モデル（STLM）白書2024年版 LLMのファインチューニングから最適化、量子化まで-

スモール言語モデル（SLM）／
スーパー・タイニー言語モデル（STLM）白書2024年版
LLMのファインチューニングから最適化、量子化まで-