1/11ページ
ダウンロード(1.5Mb)
自然言語処理に使用されている主な深層学習モデルにBERTがあります。BERTモデルの課題と、Cerebras Systemsによる解決策をご紹介します。
このカタログについて
ドキュメント名 | Cerebras Systemsによる自然言語処理AIのトレーニング高速化 |
---|---|
ドキュメント種別 | 製品カタログ |
ファイルサイズ | 1.5Mb |
取り扱い企業 | 東京エレクトロンデバイス株式会社 (この企業の取り扱いカタログ一覧) |
この企業の関連カタログ
このカタログの内容
Page1
Cerebras Systemsを利用した
BERT Largeモデル
トレーニングの高速化
1
Page2
Cerebras SystemsによるBERT
の効率的なスケーリング
構造化されていないテキストは、人間が生成する最大のデータソースの1つです。ウェブデータ、学術
論文、電子メール、従来のメディア、テキスト、インスタントメッセージ、デジタル記録、ソーシャル
メディアなど、すべてのものに膨大な量の非構造化テキストが含まれています。
増え続けるテキストは、整理し、合成し、パターンを識別し、適切に掘り起こして洞察することができ
れば、貴重なデータの宝庫となります。これを実現するのが、自然言語処理(NLP)です。NLPは、特殊
なコンピュータを使って、増大するデータの意味を素早く理解することを可能にします。これにより、
重要なアイデアやトピックの特定、新たなトレンドの発見、センチメントの分析、人間の読者には不可
能な相関関係の特定などが可能になります。
NLPの力は広範囲に及び、営利企業や政府機関にも価値ある結果をもたらします。現在、NLPに使用さ
れている主な深層学習モデルは、BERT(Bidirectional Encoder Representations from
Transformers1 )です。その原型は、コンピュータが書かれたテキストを理解し、完全な文や段落の文
脈の中で単語の意味を理解するのに役立ちました。
2 1 https://arxiv.org/abs/1810.04805
CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET
Page3
多くの企業がテキストをより良く分析するためにBERTモデルを使用していますが、このモデルは、自
然言語の領域をはるかに超える応用例が増えています。BERTは、例えば、数値時系列、核酸配
列、タンパク質配列など、あらゆるテキストまたは連続したデータのモデル化に使用することができま
す。当初の発表以来、人工知能(AI)のコミュニティは、領域固有の用途のために、様々なBERT派生モ
デルを構築して使用してきた。例えば以下のようなものです:
BioBERT2 - バイオメディカルテキストマイニング
FinBERT3 - 金融センチメント分析
SciBERT4 - 科学やコンピュータサイエンスのテキスト
ClinicalBERT5 - クリニカルノートのモデリングと病院の再入院の予測
GilBERT6 - 石油・ガス分野における地質情報に基づく言語モデリング
DNABERT7 - ゲノム配列解析
PatentBERT8 - 特許の分類と検索
mBERT; - 多言語理解のためのオリジナルBERTモデルの改良版
ここでは、一般的な言語データで BERT を訓練するのではなく、ドメイン固有のテキストでモデルを訓
練することで、はるかに高い精度を得ることができるという考えに基づいています。驚くことではあり
ませんが、ドメインに特化したBERTモデルは、ドメインに特化したタスクにおいて、汎用コーパスで訓
練されたモデルを大幅に上回ることがすぐにわかりました。凌駕するということは、固有の方言や語彙
で学習したBERTモデルが、その分野での仕事の推論において圧倒的に高い精度を生み出すことを意味し
ます。しかし、BERTモデルはまだ多くの課題を抱えています。Cerebras Systemsは、BERTのトレー
ニングと解決までの時間を改善しながら、これらの課題を克服するソリューションを設計しました。
より良い解決策の必要性
大規模なBERT型モデルを膨大なドメイン固有のデータセットでトレーニングすると、より高い精度の結
果が得られるという圧倒的な証拠があるにもかかわらず、それを実行する組織はほとんどありません。
なぜでしょうか?それは、難易度が高く、時間とコストがかかるからです。Cerebras Systemsはこれ
らの課題に注目し、BERTモデルをより利用しやすくするシステムを作りました。
BERTの計算上の課題
BERTのような複雑なモデルを従来のGPUで学習するには、マシンのクラスタを構築し、専門的なプログ
ラ ミング技術を駆使し、各学習の実行に数日から数週間の時間をかける必要があります。
2 https://arxiv.org/abs/1901.08746
3 https://arxiv.org/abs/1908.10063
4 https://arxiv.org/abs/1903.10676
5 https://arxiv.org/abs/1904.05342
6 https://openreview.net/pdf?id=SJgazaq5Ir
7 https://www.biorxiv.org/content/10.1101/2020.09.17.301879v1.full
3 8 https://arxiv.org/abs/1906.02124
Page4
バイオメディカル言語表現のための事前学習済みBERTモデルに関する画期的な研究の1つである
BioBERTiiでは、著者らは、大規模なNLPモデルがもたらす膨大な計算上の課題と、このことがこの分
野の研究に与える影響について述べています:
BERTLARGEを使用するために最善の努力をしたにもかかわら
ず、BERTLARGEの計算の複雑さのためにBERT BASEのみを使
用しました
これが、世界で最も洗練されたAI研究者たちからの発信であることは注目に値します。これは、マイク
ロソフト社とテキサス大学の研究者が、効率的なBERTモデルのトレーニング8 について今年発表した研
究結果からも明らかなように、現在も課題となっています:
BERTなどの大規模な事前学習済み言語モデルは、経験的に
大きな成功を収めていますが、その計算効率の悪さが実用上
の重大な欠点となっています。より大きな自己充足ブロック
でより多くのTransformerレイヤを積み重ねると、モデルの
複雑さは急速に増大します。... このようなモデルの複雑さ
は、高価な計算資源と非常に長い学習時間を必要とします
グラフィックス・プロセッシング・ユニットのクラスターを使用した場合、セットアップ、プログラミ
ング、最適化に長い時間がかかるため、ML担当者はMLの仕事をしない時間が多くなります。クラスタ
の設置や撤去、他の人が作業するのを待ったり、小さなマシンの煩雑な配列で動作するようにコードを
慎重に調整したりしているのです。しかし、モデルの学習には数日から数週間かかることが多く、不満
が残ります。このようにモデルの学習に時間がかかると、MLの研究はもはや反復的ではなく、ゆっくり
とした一過性のものになってしまいます。
グラフィックプロセッシングユニットのクラスターは、複雑で時間がかか
り、コストも高いため、自然言語処理やその他のシーケンスデータ処理アプ
リケーションのためのドメイン固有のBERTモデルの恩恵を受けることがで
きる多くの組織は、そのような余裕がありません。
Cerebras Systemsの解決策
Cerebrasは、BERTモデルを使用する際の課題を克服するためのソリュー
ションを設計しました。新しいCerebras CS-2システムは、セットアップの
複雑さと大規模モデルのトレーニングにかかる時間を劇的に削減します。こ
れにより、組織にとって高性能な深層学習の計算がより身近なものになりま
す。
4 9 https://arxiv.org/pdf/2101.00063.pdf
CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET
Page5
最初のCerebras CS-1システムは2019年11月に発売され、史上最大のチップを搭載した世界で最もパワ
フルなAIコンピューティングのためのソリューションでした。
2021年4月、Cerebras Systemsは、第2世代のウェハースケールエンジン「WSE-2」をベースにした
CS-2システムを発表し、CS-1の性能を2倍以上に高めました。CS-2は、85万個のAIに最適化されたプ
ロセッサコア、40GBの高性能オンウエハーメモリ、20ペタバイトのメモリ帯域幅、220ペタビットの
コア間通信帯域幅をもたらします。
NVIDIA A100 GPUと比較すると、WSE-2デバイスは56倍の大きさで、123倍のAIコンピュートコ
ア、1,000倍のオンチップメモリ、12,733倍のメモリ帯域幅を備えており、これらすべてにより、AI作
業をより速く、より高い効率で実行することができます。図1をご覧ください。
Cerebras WSE-2 NIVIDIA A100 Cerebrasの優位性
チップサイズ 46,225 mm2 826 mm2 56x
コア数 850,000 6912 + 432 123x
オンチップメモリ 40 Gigabytes 40 Megabytes 1,000x
メモリーバンド帯域幅 20 Petabytes/sec 155 Gigabytes/sec 12,733x
ファブリック帯域幅 220 Petabytes/sec 600 Gigabytes/sec 45,833x
図1.深層学習用Cerebras WSE-2の仕様とNVIDIA A100グラフィック・プロセッシング・ユニットとの比較
CS-2システムは、このような性能特性を備えているため、GPUなどの従来の汎用プロセッサよりもはる
かに高い性能と効率で、BERTモデルの深層学習計算を実行することができます。 CS-2は通常、AI作業
の解決までの時間を桁違いに短縮し、ほんのわずかなスペースと電力で、GPUのクラスター全体(数十か
ら数百)よりも優れたウォールクロック計算を実現します。
CS-2は、高速なウォールクロック計算に加えて、クラス
ター規模のコンピュートデバイスを1台のデスクトップマシ
ンと同じようにより簡単にプログラムできるような容易性
を提供しています。CS-2は、TensorFlowやPyTorchなど
の標準的なMLフレームワークでシングルノードとしてプロ
グラミング可能であり、ディープラーニング作業のための
セットアップや反復作業を迅速に行うことができます。こ
の高性能とわかりやすいプログラミングの組み合わせによ
り、パフォーマンスを迅速にスケールアップし、ウォール
クロックトレーニング時間と課題解決までの全体的な時間
を大幅に短縮することができます。
5
CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET
Page6
Cerebras SystemsによるBERTトレーニングとソ
リューションまでの時間の短縮化
解答時間の短縮は、機械学習の研究者やエンジニアが、より早くより効率的なコストで学習に到達でき
ることを意味します。しかし、GPUクラスターは複雑で時間がかかり、大規模なソフトウェアの変更を
必要とします。結局、これらのクラスターでは、パフォーマンスの低いトレーニング時間が続くことに
なります。Cerebrasのソリューションは、ML研究者がより簡単にプログラミングし、より早くトレーニ
ングを行い、より早くソリューションに到達することを可能にします。
トレーニング時間
学習時間の短縮が深層学習の可能性を広げます。以下のセクションでは、BERTおよびBERTに類似した
モデルを業界横断的にトレーニングしたお客様の知見を報告します。
ウェブ系のお客様の最初の例では、Cerebras CS-1はNVIDIA DGX-A100(8 x A100 GPUを搭載)で実
行される大規模なBERTスタイルのモデルに対してベンチマークされました。以下の結果が示すよう
に、1台のCS-1はNVIDIA DGX-A100よりも9.5倍高速で、エンド・ツー・エンドの事前トレーニング
が、DGX-A100では9日以上(218.5時間)かかっていたのが、1台の第一世代CS-1では1日以下(23.1時
間、図2参照)に短縮されました。
図 2. 顧客のBERTモデルで、同一TensorFlowモデルとデータによるウォールクロックでのCS-1とDGX A100の事前トレー
ニング時間比較。ウォールクロックでのトレーニング時間が短いほど良い
これは、ウォールクロックでのトレーニング時間では大きなアドバンテージとなりますが、コンピュート
ではさらに大きなアドバンテージとなります。例えば、1台のCS-1は、8台のA100 DGXシステムよりも
9.5倍高速であるため、NVIDIA A100 76枚分の演算性能があると言いえるかも知れませんが、これは正
確ではなく、GPUはリニアには拡張しません。
2台目の8枚のGPUセットを追加しても、最初の8枚のGPUの2倍のウォールクロック・アクセラレーショ
ンは得られず、実際には、1.6倍程度にしかならないというデータもあります。スケーリングに伴うプロ
グラミング上の課題や、コンピュートスケーリングの副次的な特性についてはよく知られており、後述で
詳しく説明します。しかし結果的には、1台のCS-1が100枚以上のGPUを搭載したクラスターよりも優れ
6 た性能を発揮しています。また、CS-2はその2倍の速さです。
CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET
Page7
グラフィックス・プロセッシング・ユ
ニットのクラスターの性能は、従来から
知られているリニアにスケーリングしな
い事に加えて、小型プロセッサの大規模
なクラスターを構築することは複雑で時
間がかかり、ソフトウェア(機械学習モデ
ルのプログラミングモデルを含む)を大幅
に変更する必要があります。ミニバッチ
サイズの変更、ハイパーパラメータの変
更、学習率の変更などが必要になりま
す。また、グラフィックスプロセッシン
グユニットのクラスタでモデルを実行す
るためには、TensorFlowやPyTorchの異
なるバージョンを使用する必要がありま
す。
しかし、Cerebras Systemsは単一の高性能マシンで設計されているため、クラスター規模の高速化を実
現するのに、モデルの変更は必要ありません。大規模なハイパーパラメータのチューニングや、バッチサ
イズを大きくする必要もありません。 単体のGPU用に書かれたBERTモデルは、数行のコードを入力する
だけでCS-1またはCS-2で実行できます。
使いやすさと非常に高速なパフォーマンスの組み合わせにより、Cerebrasのソリューションでドメイン
固有のBERTのような大規模なNLPモデルを扱う研究者は、下流のタスクですぐに高い精度の結果を得る
ことができます。お客様にとっては、トレーニング時間が短縮されることで、新しいモデルアーキテク
チャやデータセットを用いた深層学習の研究がより迅速かつコスト効率よく行えるようになります。 ま
た、本番モデルがお客様のユーザーデータの進化する統計情報とより一致するように、より頻繁に再ト
レーニングを行うことができます。がん研究をされているお客様からのコメントの通り、
トレーニングを行う科学者が、トレーニング開始時の質問内容
を覚えているほど、これらのモデルを高速にトレーニングでき
るようにしたいと考えています
アルゴンヌ国立研究所 コンピューティング・環境・生命科学
(CELS)9担当副所長 リック・スティーブンス10
前述したように、ウォールクロックでのトレーニング時間はGPUシステム上でリニアにスケールしない
ため、9.5倍のウォールクロックトレーニング時間は、CS-1のDGX-A100に対する計算上の優位性をさ
らに大きく表しています。言い換えれば、モデルを2倍、3倍速く学習させようとすれば、GPUシステム
の数を2倍、3倍以上に増やす必要があります。 CS-1の2倍以上の性能を持つCS-2では、このようなモ
デルの学習時間がさらに速くなり、より大きなアドバンテージが期待できます。
7 10 https://www.technologyreview.com/2019/11/20/75132/ai-chip-cerebras-argonne-cancer-drug-development/
Page8
図3は、MLPerf Training v0.711 で報告された結果に基づいて、NVIDIA DGX-A100システムが達
成した実際の BERT ウォールクロックトレーニング時間のスケーリングを示していますが、これを
経験的に見ることができます。理想的な線形スケーリングはオレンジ色で示され、報告された実際
のウォールクロックのスケーリングファクターは青色で示されています。
図3. DGX-A100システムを使用した実際のウォールクロックBERTトレーニング時間のスケーリング(青)と、理想的な線形
スケーリング(オレンジ)との比較。達成された数台のDGXシステムのスケーリングは大幅に副次的で、システムを追加する
とほぼ冪乗則(べきじょうそく)の傾向に従います
このデータを使用すると、この種のワークロードでは、CS-1は9.5倍の高速トレーニングを実現し、こ
れはDGX-A100を約21~22台使用した場合のウォールクロック計算量に相当することがわかります。つ
まりこの場合、1台のCS-1で達成したトレーニング時間と同じ時間を得るためには、DGX-A100システ
ムを21~22台購入する必要があり、これは約168~176枚のA100 GPUに相当します。
お客様にとっては、トレーニング時間が短縮されることで、新しいモデルアーキテクチャやデータセッ
トに対する深層学習の研究が、より迅速かつコスト効率よく行えるようになります。 これにより、お客
様のユーザーデータの統計的な変化に合わせて、より頻繁に再トレーニングを行うことができるように
なります。このようなパフォーマンスの向上は、大手製薬会社のアストラゼネカ社など、他の業界でも
確認されています。AIエンジニアリングの責任者であるニック・ブラウン氏12 は次のように述べていま
す:
Cerebrasは当社のAIへの取り組みを加速させる可能性をもた
らし、最終的にはAIへの戦略的投資を行うべき場所を理解す
るのに役立ちます。これまでGPUの大規模なクラスタで実行
するのに2週間以上かかっていたトレーニングが、わずか2日
強、正確には52時間で達成されました。 これにより、より
頻繁に反復して、より正確な答えを、桁違いに早く得ること
ができるようになります
11 MLPerf v0.7 Training NLP benchmark BERT training on Wikipedia data. MLPerf name and logo are trademarks. See
www.mlperf.org for more information.
12 https://larslynnehansen.medium.com/accelerating-drug-discovery-research-with-new-ai-models-a-look-at-the-
8 astrazeneca-cerebras-b72664d8783
Page9
プログラミングの容易性
Cerebrasソフトウェアスタックは、大規模なNLPモデルでより高いレベルのトレーニングパフォーマン
スを簡単に実現します。 必要な作業は、ここに示すように数行のコードを書くだけです。
CerebrasEstimatorは、私たちのチームが開発したTensorFlow用のラッパーです。
ユーザーは、CerebrasEstimatorをインポートし、モデル(BERT-Largeなど)、入力関数、関連パラ
メータ、学習スクリプトを標準TensorFlowセマンティクスで定義するだけです。プロセス全体は以下の
ようになります:
from cerebras.tf.cs_estimator import CerebrasEstimator
from cerebras.tf.run_config import CSRunConfig
est_config = CSRunConfig(
cs_ip=params[“cs_ip”],
cs_config=cs_config,
)
est = CerebrasEstimator(
model_fn=model_fn,
model_dir=`./out`
config=est_config,
params=params,
use_cs=True
)
est.train(input_fn, max_steps=100000, use_cs=True)
CerebrasEstimatorは、公式のTensorFlow Estimatorのサブクラス化されたもので、使い方は簡単で親
しみやすいです。ユーザーは、標準的なEstimatorの仕様に加えて、CerebrasシステムのIPアドレスを
提供し、フラグuse_cs=Trueを設定するだけで、Cerebrasデバイスでトレーニングと推論を行うことが
できます。
CS-2では、わずか数行のコードを変更するだけで、モデルのアーキテクチャ、ハイパーパラメータ、
バッチサイズの違いを素早く試すことができます。複数の小型デバイスでネットワークを拡張したり、
通信や同期の問題に対処するための追加作業は必要ありません。
モデルのセットアップ、ハイパーパラメータの最適化、スケーリング、パフォーマンスの最適化といっ
たエンド・ツー・エンドのモデル開発タスクは、従来のGPUクラスタのセットアップでは数ヶ月かかる
ところを、CS-1システムでは数日から数週間で行うことができます。
プログラミングの容易性 + トレーニングの高速化 = 解決までの時間短縮
ハードウェアの性能とソフトウェアの使いやすさを組み合わせることで,解決までの時間を大幅に短縮
することができます。一般的なGPUクラスターのセットアップでは、許容できるデバイス使用率、性
能、モデルの目標精度への収束を達成するために、ハイパーパラメータの選択、検証、および最適化に
数日から数週間を費やすことがあります。
9
Page10
ライフサイエンス分野のお客様と共同で、最近、ある分野に特化したBERT NLPモデルの開発プロジェ
クトにおいて、モデルのコンセプトから製品化までの時間を、GPUクラスターと当社の(第一世代WSE
搭載)CS-1を用いて比較しました(図4)
同じモデルとデータセットを検討し、ソフトウェアのセットアップには、モデルの定義、機能のデバッ
グ、性能の最適化、初期モデルのトレーニングと生産可能な実装を開発するためのトレーニング実験と
いったステップが含まれています。
この研究では、研究コンセプトから量産モデルまでのエンド・ツー・エンドのソリューションにかかる
時間が、GPUクラスターでは18週間だったのに対し、CS-1では4週間に短縮されました。プログラミン
グと計算時間が3カ月以上短縮されたことで、お客様はエンジニアリングコストを削減し、新しいAIイノ
ベーションを加速することができました。
図 4. 研究のアイデアから量産モデルに至るまでの全体的な解決時間 (図のキーに示されているプログラミングおよび計算
ステップを含む ) Cerebras CS-1 と顧客の GPU クラスタの比較
結論
BERTおよびBERT類似モデルは、自然言語処理をはじめとする幅広い分野に影響を与えています。自然
言語のクエリからタンパク質の配列分析まで、BERTおよびBERT類似モデルは、テキストやその他の
シーケンシャルデータの分析に変革をもたらしています。 Cerebras CS-1およびCS-2システムは、こ
れらのネットワークのパワーを幅広いユーザーに提供します。導入を簡素化して使いやすくし、トレー
ニング時間を大幅に短縮することで、Cerebras Systemsのソリューションは、産業界や政府機関のお
客様にBERTおよびBERT類似モデルの適用範囲と影響を拡大します。
詳細やデモをご覧になりたい方は、 cerebras.net/get-demo までご連絡ください 。
10
Page11
Cerebras Systmesは、ウェハースケールエンジンを搭載したCS-2により、ディープラーニング用
の計算機に革命を起こします。ウエハースケールエンジンは、人工知能研究のために、より多くの
計算能力、より多くのメモリ、より多くの通信帯域を、これまで不可能だったスピードとスケール
で提供します。先駆的なコンピューターアーキテクト、コンピューターサイエンティスト、ディー
プラーニングの研究者が一丸となって、人工知能を現在の技術水準よりも桁違いに加速させる新し
いクラスのコンピューターシステムを構築しました。
11
CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET