エッジに生成 AI を安全かつ効率的に展開（NXPジャパン株式会社）のカタログ無料ダウンロード | Apérza Catalog（アペルザカタログ）

1/6ページ

このカタログをダウンロードして
すべてを見る

ダウンロード(2.5Mb)

クリップする URLを送る

クリップしたカタログは

こちらから

ホワイトペーパー

NXPジャパン株式会社

お問い合わせ

家電製品、産業用機器、自動車といった組込み機器は、コストと消費電力を所定の範囲内に収める必要があるため、コンピューティングリソースとメモリサイズの制約を受けます。また組込み機器は常にネットにつながっているわけではない場合もあります。このようなエッジ・デバイスに置いてLLM（大規模言語モデル：Large Language Model）を実現する手法をご紹介します。

ドキュメント名	エッジに生成 AI を安全かつ効率的に展開
ドキュメント種別	ホワイトペーパー
ファイルサイズ	2.5Mb
登録カテゴリ	電子・半導体マイコンマイコン
取り扱い企業	NXPジャパン株式会社 (この企業の取り扱いカタログ一覧)

NFC Everywhere

製品カタログ

NXPジャパン株式会社

スマートホームのための魅力的で使いやすい製品の設計ガイドクックブック

ハンドブック

NXPジャパン株式会社

S32K3 MCUをベースとしたモータ制御ソリューション

製品カタログ

NXPジャパン株式会社

Page1

エッジに生成 AI を安全かつ効率的に展開：マイクロプロセッサにおける LLM の最適化手法 NXP Semiconductors 概要大規模言語モデル（Large Language Model：LLM）が社会に登場したことで、消費者向けおよび企業向けテクノロジにおける人工知能（Artificial Intelligence：AI）機能の需要が大幅に高まりました。しかし、生成 AI の普及に伴い、基盤モデルの抱える落とし穴も明らかになりました。「エッジへの基盤モデルの展開方法」と「プライベート・データに合わせたモデルのチューニング方法」が、生成 AI の発展、および多様なデバイスやユース・ケースへの AI の適用を妨げる 2 つの大きな課題となっています。基盤モデルには多大な計算能力とメモリが必要になるため、展開場所はデータ・センターやクラウド接続環境に限られます。さらに、生成モデルは事実と異なる傾向が強く、情報をでっち上げたり、他の論理的な誤りを起こしたりしがちです（「ハルシネーション」と呼ばれます）。そのため、AIシステムは生成モデルの活用に課題を抱えています。計算の複雑性については、LLM 固有の最適化手法により軽減できます。また、ファイン・チューニングや検索拡張生成（Retrieval Augmented Generation：RAG）などの手法により、学習時には利用できなかったプライベート・ソースやデータ、あるいは専門知識のソースやデータへアクセスさせることで、AI が生成する出力の正確性も改善できます。本論文では、生成 AI の応用に関する 2 つの主要課題を解決する手法として、モデル最適化と RAG を用いて、電力効率の高い組込みアプリケーション・プロセッサ上で LLM を実行する新しいパイプラインを導入します。この手法により、プライバシー保護に配慮した AI ワークフローの開発や、AI エージェント、ヒューマノイド・ロボティクス、医療機器、産業機器、IoT、車載インフォテイメントの今後の発展に向けた、効率的なパイプラインを構築できます。はじめに LLM と大規模マルチモーダル・モデル（Large Multi-Modal バーチャル・セールス、バーチャル BDR (Business Model：LMM）が自然言語処理（Natural Language Development Representative)、コーディング・コパイ Processing：NLP）などの AI 分野に活用されるようになっロット、会議の自動文字起こし、Q&A の作成、テキストの画たことで、企業にも消費者にも新たな可能性が生まれまし像変換などのアプリケーションが普及したことで、AI 機能はた。こうしたモデルの多くはインターネット上のパブリッ日常生活の一部となりつつあります。ク・ソースで公開されている大量のデータセットでトレーニ本論文の執筆時点では、こうしたユース・ケースの大多数のングされており、モデルを活用したアプリケーションは今や基盤として、高帯域インターネットと高性能コンピューティ世界中の多くの人に使われています。2022 年後半に、AI のング（NVIDIA や AMD の GPU など）が用いられていま研究と展開を進める企業である OpenAI から ChatGPT が発す。一方、新しい基盤モデルがリリースされるたびに、以下表されて以降、瞬く間に開発者サイトやクラウド・コンのように前世代からの大幅な発展も見られています。ピューティング・プラットフォームで多数のクローズドソース・モデル API とオープンソース LLM ウェイトが公開されるようになりました。メールの要約やコピーライティング、

Page2

• モデル・メモリの改善：より大きな入出力に対応するため以下の図 2 に、高度なモデルであっても思いも寄らない間違にコンテキスト長を拡大いが起こり得る仕組みを示します。 • モデル推論の高速化：トークン生成の改善により応答速度を向上 • モデル・サイズの縮小：モデル・パラメータ数の削減によりモデル容量を縮小生成 AI の機能面で、上記の劇的な進歩が起きているのは事実です。しかし、最も小さいモデル（小規模言語モデル、 Small Language Model︓SLM）であっても、モバイル機器やエッジ・デバイスで使用されている従来の AI モデルと比べると桁違いの大きさです。以下の図 1 に、コンピュー図 2：LLM による事実ねつ造の例（LLM を適切に活用するためにはタ・ビジョン（Computer Vision︓CV）用、NLP用の既存専門知識が必要）のモデルのサイズと、最新の SLM のサイズを比較して示しまた、生成 AI の真の価値をすべての人に提供するためにます。は、次の 2 つの主要課題を解決しなければなりません。 1) こうしたモデルをクラウド外に展開する方法 AI モデルのサイズ（パラメータ数︓数十億） 2) プライベート・データや分野固有のデータに合わせてモデルを調整する方法 4 現時点で、これらの課題を解決するために、生成 AI 関連のト 3.5 ランスフォーマ・モデルと拡散モデルおよびこれらのワーク 3 フローに対して、固有の新しい手法が多数考案されていま 2.5 す。本論文の目的上、これらを、LLM の計算効率を高める最 2 適化手法（スパース化や量子化など）と専門タスクの正確性を高めるチューニング手法（ファイン・チューニングや RAG 1.5 など）に分けて扱います。 1 0.5 最適化 0 ResNet-50 BERT tinyLlama Phi-3-mini これまでの Deep Compression（Han 他）や TensorFlow Model Optimization Toolkit (TF-MOT) などの成果により、 CV NLP Gen AI 全結合型ニューラル・ネットワーク（多層パーセプトロン、 Multi-Layer Perceptron：MLP）、畳み込みニューラル・ネッ図 1：さまざまなアプリケーション領域におけるAI モデルのサイズトワーク（Convolutional Neural Network：CNN）、回帰型ニューラル・ネットワーク（Recurrent Neural Network：さらに、生成 AI はサイズを問わずハルシネーションという RNN）については、ニューラル・ネットワーク最適化の土台問題を抱えているうえ、公開情報がなくては推論機能と認が整っています。また、学術領域においては、構造的/非構造識機能を実行できません。ほとんどの企業のデータがファ的プルーニング、テンソル分解、量子化、蒸留などの手法がイアウォール内のデータベース上に存在しており、適用され研究され、市販の最適化ライブラリにも実装されています。る規制も変化していることを考えると、ビジネスで AI を有このため、あらゆるエッジ・デバイスのユース・ケースに多効活用するためには、LLM および LMM でこうしたデータ数の画像データ、音声データ、構造化データを応用可能になへ安全かつ効率的に接続できなければなりません。りました。これは、tinyML アプリケーション用のセンサとマイクロコントローラ内に展開されるエクストリーム・エッジも例外ではありません。トランスフォーマ・アーキテクチャや拡散アーキテクチャが非常に大きい場合には、ニューラル・ネットワークの圧縮と最適化について別の課題が生じます。「モデル推論のスピード、サイズ、効率を高める」という従来の目標を達成するため、既存手法を詳しく調査し新たなアプローチを考案しなくてはなりません。 www.nxp.jp 2

Page3

ワンショット量子化および混合精度を用いると、モデルをもう1つの方法は、LLMとプライベート・データを連携させ 1/4～1/32 に軽量化できるという単純明快なメリットがあることです。この場合、モデル・ウェイトの再トレーニングや更新は行いません。独自の知識ソースを利用してモデります。FP32 精度を INT 8 精度に（1/4）、あるいは完全ルの出力を調整する手法の例としてはRAGが挙げられます 2 値（1 ビット）のウェイトおよび活性化関数により最大でが、その実装方式はさまざまです。ファイン・チューニン 1/32 に削減できます。しかしながら、特に正確性の制約がグとは対照的に、RAGでは企業やユーザーが各自のデータある場合や、再トレーニングのコストが大きい場合には、特を非公開に保つことができ、またそれらのデータはLLMの実行時以外には参照されません。以下の図3に、RAGのコン定のニューラル・ネットワークを量子化することは単純な作セプトと主なメリットを示します（参照︓2312.10997 業ではありません。こうした理由から、有望なLLM 最適化手 (arxiv.org)）。法として、効率的なトレーニング後量子化（Post-Training Quantization：PTQ）の手法が考案されています（GPTQ など）。他の LLM 最適化手法としては、投機的デコーディング、蒸留、低ランク分解、低レベルの最適化・推論エンジン（Llama.cpp など）が挙げられます。チューニング多くの生成 AI ユース・ケースでは、最適化済みの軽量モデルだけでなく、当初のモデル・トレーニングには含まれていない分野固有のデータまたは非公開の知識ソースへのアクセ図 3：チャット・アプリケーションにおける検索拡張生成の仕組みのスも用意する必要があります。例として、ある経営者がさまざまな製品の販売データを照会し、LLM に応答を生成させ RAGは、十分な応答品質を確保しハルシネーションのリスたいと考えているとしましょう。この場合、この企業独自のクを回避するうえで重要ですが、AIアプリケーション全体販売数量にアクセスできなければ、意味のある出力は得られのデータ整合性とセキュリティにも不可欠な役割を果たしません。また、エッジ・デバイスの例としては、独自機能をます。備えた家電製品で、スマート・マシン・インターフェースのデータ転送時には、個人識別情報（Personally 音声制御を実装することが考えられます。この場合、LLMに Identifiable Information︓PII）や他のプライベート・は、この独自機能に関する知識が欠かせません。おそらくデータ、メタデータの侵害が最も起こりやすいためです。は、動作を最適化するために、ユーザーの環境や意図に合わデータ処理をエッジで行い、エッジ・デバイス内にAIモデせたチューニングも必要になるでしょう。ルを展開するようにすれば、プライバシーに関する懸念をこのような非公開の知識を扱う方法は主に2つあります。1 大幅に和らげることができます。しかし、生成AIモデルのつ目の方法は、自社で既存のオープンウェイト LLM 性質上、データのセキュリティ強化手順を追加で行う余地（Llamav3や、指示実行モデルのDBRXなど）をファイン・があり、こうした手順は必ず実施しなければなりません。チューニングすることです。この場合、分野専用モデルを作 RAGはモジュール形式なので、PDFドキュメントなどの成するために、トレーニング・データのラベル付け、注釈付データ・ソースを解析および分割し、さまざまな方法でけ、キュレーションを行う必要があります。この方法につい LLMに供給可能です。さらに、言語モデルがRAG経由でては、ハルシネーションを大幅に減らすとともに、研究開発データにアクセスする必要があるのは、プロンプトまたは費用の大きなユース・ケース（創薬や物理モデリングなど）入力の提供時のみです。そのため、新しい魅力的な生成AI に生成モデルを利用しやすくなることが実証されています。機能を追加で取り入れながら、企業や消費者のデータのセしかし、その一方で、コストまたはリソースの負担が非常にキュリティをきわめて効果的に強化できます。大きいために企業でファイン・チューニング済みのサンプルを開発できないケースも多く見られます。ある例で手法は、DBRXモデルに業界固有のタスクを実行させるために、数千人の従業員[1]でトレーニング・データセットをキュ本論文では、エッジに「エンドツーエンド」のLLM搭載アレーションする必要がありました。また、このモデルの製作プリケーションを展開する手法を提案します。このパイプには、クラウドの費用が約320万ドルかかっています（参ラインにより、エッジ・デバイス用の生成AIモデル（LLM 照︓ やLMMなど）の効率化と、分野固有の知識やプライベー「Mosaic LLMs: GPT-3 quality for <$500k」ト・データへのアクセスの保護を両立する手法を提供しま (databricks.com)）。す。 www.nxp.jp 3

Page4

Float32 SmoothQuant SmoothQuant (CPU) INT8 (CPU) INT8 (NPU) TTFT 9.61 3.1 1.417 （秒）図 4：RAG を搭載した eIQ GenAI Flow TPS 2.12 4.25 4.76 多くのAIユース・ケースでは、ユーザーに価値を提供する（トークン数）ため、プロンプトと出力を複数用意しなければなりません。つまり、センサ、データ、および全体的なシステム設表 1：i.MX 95 アプリケーション・プロセッサでの量子化前後におけ計を包括的に把握できるようにする必要があります。私たる tinyLlama-1B の推論性能（トークン 143 個の入力シーケンス）ちのパイプラインでは、音声コマンドを用いて応答と情報の取得をインテリジェントに行うヒューマン・マシン・イ LLM のチューニングンターフェース用オーディオ・タスクを、複数のモジュー本パイプラインでは、最適化済みモデルだけでなく、LLM でルで実装します。生成される出力のカスタマイズも可能です。本論文では、 LLM にプライベート・データを安全かつ効率的に提供するた直近のeIQ® GenAI Flowの発表で紹介したように、このモめに、自社開発の RAG 手法を使用しています。デルでは他のAIモデルへの入力と出力の両方を受け取ります。さらに、パイプラインでは、LLMと接続する効率的なはじめにで述べたように、アプリケーション全体の整合性と RAGモジュールも提供します。実装を実現可能なものとすセキュリティを確保するうえで、この点は重要です。分野専るためには、まずモデルをターゲット・デバイスに対して用モデルの事前トレーニングまたはファイン・チューニング最適化する必要があります。を行えば、言語モデルに供給するデータを顧客が制御できますが、トレーニング、開発、保守にかかるコストが増大しま LLM の展開す。このコストは、LLM または LMM のサイズだけでなく、データ・ソースのサイズにも比例します。 LLM の推論機能と自動化機能を十分に活用するには、まず機能面の性能を満たすように推論を高速化するモデルの実行代案として、本パイプラインではきわめて小さな組込みモデフレームワークを提供する必要があります。ルを使用しています。RAG を採用したことで、プライベート・データで LLM の応答を「カスタマイズ」できるだけで量子化なく、一般的な AI モデル（GPT など）にこの非公開の知識本論文では、LLM を最適化するため、TinyLlamaONNX 1B ソースを公開せず、組込みデバイス環境内に留められるとを使用し、SmoothQuantINT8 量子化[2]を適用しました。いう追加のメリットも得られました。ノードの種類を変えた 2 種の量子化済みモデルを試したところ、2 番目のバージョンの方が高い性能を発揮しました。 NXP i.MX95 アプリケーション・プロセッサ評価ボードでのテストの結果、推論のスループットについては 2 番目のバージョンの量子化済みモデルの方が優れていました。 INT8 の有効性を踏まえ、現在はスループットおよびパイプライン全体の性能を高めるため、Gemma-2B などのモデルやDanube0.5B などの SLM のテストを進めています。高速化本パイプラインでは、LLM の量子化に加え、i.MX95 Neutron NPU コアによる高速化も行っています。モデルの図 5：車載ユース・ケースにおける RAG ファイン・チューニングを高速化のため、今回は TinyLlama-1B 量子化済みモデルに使用した応答の例ついて、ONNXRT 実行プロバイダから NXP の Neutron 実行プロバイダへとモデルの連携を行いました。 TTFT(Time to First Token)と TPS(Tokens per Second) により、システムの性能を計測しています。TTFT はプロンプト/クエリが入力されてから最初のトークンが生成されるまでの時間を表し、TPS は推論のスループットを表します。 www.nxp.jp 4

Page5

NXP が開発した RAG 手法では、効率化のため次のサブスこの例を踏まえると、モバイル・ロボティクスも、機械に生成テップを組み込んでいます。モデルを組み込んで一定の認識力と推論力を与えることで、人間らしさを加えて普及を後押しできる領域と言えます。例え • ドキュメントの前処理ば、人間のオペレータがヒューマノイド・ロボット向けの設計 • チャンク化（LLM の応答で使用できるテキストのチャンク図や作業リストを提示する場合に、ロボットにOCRとRAGをを作成する）組み込み、人間から提示されたコンテキストに合わせて調整し • 埋め込み（テキストをトークンで表現する）た音声をLLMで生成するケースが考えられます。 • 検索のハイパーパラメータ GenAI FlowとRAGの組み合わせにより、Q&Aの作成、AI主導型のカスタマー・サービス、ファクトリ・オートメーションな例えば、新型自動車のサービス・マニュアルをテキスト・どのさまざまなユース・ケースをエッジで実現できます。ご興データのソースとして利用できます。追加のRAGプロンプト味をお持ちの方は、NXPの営業担当者にお問い合わせくださのサイズはきわめて小さいため、LLM推論のスピードを維持い。ご自身のサンプル・データ（ドキュメントなど）したまま、車載UIが人間からの問いかけに対して一般的な会で、FlowとRAGの組み合わせの効果をお試しいただけます。話とほぼ同じ速さで回答できるようになります。本論文では、LLMの展開方法とチューニング方法という主要課エンドツーエンドAI 題を解決し、エッジ製品やサービスで最新世代の生成AIのメリットを十分に活用する手法を示しました。本LLMパイプラインの入出力は、他のAIモジュールに依存します。今回は、ウェイク・ワード(Wake Words︓WW)、自動音声認識（Automatic Speech Recognition︓ASR）、テキスト読み上げ（Text-to-Speech︓TTS）を使用しました。 LLM - パラメータ数 NXP アプリケーション・プロセッウェイク・ワード (WW) サ本パイプラインに搭載される軽量モジュールであり、複雑な TinyLlama-1.1B i.MX 95、i.MX 93、i.MX 8M Plus 分析のトリガを担当します。定評のあるキーワード検出ユー Gemma-2B i.MX 95 ス・ケースを基に構築されています。 Llamav2-7B i.MX 95 自動音声認識 (ASR)︓本パイプラインの1ステップであり、ユーザーからの自然言語によるクエリをOpenAIのWhisper Danube-0.5B i.MX 95 モデルで記録します。表 2：テスト対象の LLM と対応 NXP 製品テキスト読み上げ (TTS)︓本パイプラインの最終出力であり、AIで生成された音声が含まれます。本パイプラインでは、このように高度な機能（LLMなど）もプロセッサ上でローカルに実行されるので、トークンの生成速度を最大限に高め、ユーザーに対してインターフェースの優れた応答性を確保できます。 eIQ GenAI Flow︓すべての要素を統合複数のモデルを連結させ、LLM量子化、高速化、RAGも組み合わせることで、非常に複雑なAIタスクに対しても、エッジ・デバイス単体で過去に例のない性能を実現できます。さまざまな業界や垂直市場で生成AIの利用が進んでいることを受け、GenAI Flowのニーズは広がっています。例えば、医療機器では、感染のリスクの観点から、医師、患者、他の機械との接触を最小限に抑える必要があります。LLMとRAG を利用し、医療分野固有のデータを理解できる音声AIインターフェースは、ヘルスケアでのGen AIの有効な活用法の1 つです。 www.nxp.jp 5

Page6

お問い合わせ先ホーム・ページ： www.nxp.com Web サポート：www.nxp.com/support 米国/ヨーロッパ/記載されていないそれ以外の地域： NXP Semiconductors USA, Inc. Technical Information Center, EL516 2100 East Elliot Road Tempe, Arizona 85284 +1-800-521-6274 または+1-480-768-2130 www.nxp.com/support ヨーロッパ/中東/アフリカ： NXP Semiconductors Germany GmbH Technical Information Center Schatzbogen 7 81829 Muenchen, Germany +44 1296 380 456（英語） +46 8 52200080（英語） +49 89 92103 559（ドイツ語） +33 1 69 35 48 48（フランス語） www.nxp.com/support 日本： NXP ジャパン〒150-6024 東京都渋谷区恵比寿 4-20-3 恵比寿ガーデンプレイスタワー 24F 0120 950 032（国内通話無料） www.nxp.com/jp/support/ アジア/太平洋地域： NXP Semiconductors Hong Kong Ltd. Technical Information Center 2 Dai King Street Tai Po Industrial Estate Tai Po, N.T., Hong Kong +800 2666 8080 support.asia@nxp.com 参照資料 [1] Dolly: Open Instruction-Tuned LLM | Databricks ブログ [2] Xiao, G., Lin, J., Seznec, M., Wu, H., Demouth, J., & Han, S.（2023 年 7 月）。「Smoothquant: Accurate and efficient post-training quantization for large language models」(International Conference on Machine Learning) （38087～38099 ページ）。PMLR 詳細情報：nxp.jp NXP および NXP のロゴは、NXP B.V.の商標です。その他すべての製品名、サービス名は、それぞれの所有者に帰属します。© 2024 NXP B.V. ドキュメント番号： AIRAGWP REV 0

動機*	具体的な検討のため情報収集のため
この内容をご存知でしたか？	詳しく知っていた名前だけは知っていた知らなかった
導入予定時期を教えて下さい	1ヵ月以内3ヵ月以内6ヵ月以内1年以内未定
あなたの立場を教えて下さい*	自社での導入を検討する立場顧客に提案・販売する立場
お問い合わせ・ご質問

動機
この内容をご存知でしたか？
導入予定時期を教えて下さい
あなたの立場を教えて下さい
お問い合わせ・ご質問

お名前
電話番号
会社名
事業所名
部署名
業態
職務区分
所在地

エッジに生成 AI を安全かつ効率的に展開

マイクロプロセッサにおける LLM の最適化手法

このカタログについて

この企業の関連カタログ

このカタログの内容