2023 年 4 月 20 日
StableLM: 新しいオープンソースの言語モデル
- StableLM は、自然言語処理タスクのために設計された新しいオープンソースの言語モデルです。
- このモデルは、ユーザーが自分の特定のデータセットで訓練し、微調整することができるため、タスクに特化した言語学習のパフォーマンスを向上させることができる点が特徴です。
- そのアーキテクチャは BERT に基づいており、壊滅的な忘却を最小限に抑えるように設計されています。
- モデルは、Wikipedia や Common Crawl を含む大規模なテキストコーパスで事前に訓練されています。
- ソフトウェアは使いやすく、GitHub からアクセスすることができ、ユーザーが使い始めるのに役立つドキュメントも用意されています。
- StableLM は、すでにテキスト分類やセンチメント分析など、様々なアプリケーションで使用されています。
- Stability.AI から StableLM というオープンソースの言語モデルがリリースされました。モデルは 3B から 65B のパラメータで、コンテキスト幅は 4096 です。
- モデル評価には批判もあるようですが、オープンソースなのでモデルを改良したい開発者にとっては良い選択肢になると思います。
- StableLM アルファモデルはテスト中で、Pythia 6.9B を上回ると予想され、最大 1.5 兆トークンで学習される予定です。
- 大規模なモデルは学習速度が速いものの、オーバーフィッティングを起こしやすく、企業は消費者に計算能力の対価を前払いさせる。
- 最適化された ML フレームワークは、消費者向けハードウェアでよりアクセスしやすくなっていますが、優れた言語モデルは現在、高価な GPU を必要とし、クラウド API が唯一の選択肢になっています。
- API を通じて言語モデルを提供することで、高度に最適化された推論が可能になりますが、ローカル計算によって AI アプリケーションのプライバシーがより守られます。
- スタンフォードの研究者は、StableLM をオープンソースライセンスで公開しており、様々な意見が寄せられている。
- AI の開発と利用は、超知的な AI が世界を支配することについて様々な意見があり、ホットな話題となっています。