Terra Classic：AI・機械学習技術の分散化「10億ハッシュによる証明」

この記事は、TerraClassicの著名な開発者である Edward Kim氏が2023年7月7日に公開した提案『Scaling Blockchains for AI: A Proof By A Billion Hashes』の内容を日本語訳した記事となります。

提案の要点

AI・ML技術は中央集権化されており、Block Entropyでは非中央集権化を目指している
分散型インフラネットワークが必要で「実用的で堅牢な基盤」の研究を進めている
10億のハッシュ比較の結果、悪意のある者がシステムを騙せる可能性はほぼゼロ
研究のデモンストレーションとして「AIプレイグラウンドとの対話」が可能（テスト中）

Contents

AIとML（機械学習）技術の分散化への動き
AIの非中央集権化を検証
1. 中央集権的なサービスを利用しない理由
2. 中央集権的なサービスでモデルトレーニングさせない理由
ゼロ知識証明を用いてML作業を検証
ML作業をOptimisticケースで検証
ImageNet生成「SD v1.5」データセット
AIプレイグラウンド
補足事項

AIとML（機械学習）技術の分散化への動き

AI（人工知能）は、利用率・普及率だけでなく、トレーニングコストやモデルのパラメータ化、データ、およびコンピューティング能力といった面で指数関数的に成長しています。

例として「ChatGPT」はわずか5日で100万人のユーザーに到達しました。これはNetflixでは3.5年、Twitterでは2年かかった快挙です。

しかしながら、GPT-4（ChatGPTの有料版）の開発には10,000台以上のA100 GPU（高性能なグラフィックスカード）を利用し、推定上限で1億ドル以上の莫大なコストがかかったとされています。

現実的には、この分野で競合し、開発することができる企業はごくわずかです。この革命的な技術の未来は驚くほど中央集権化されており、個々の企業がこれらのモデルの方向性と整合性を制限なくコントロールしています。

これに対応して、AIとML（機械学習）の分散化と民主化を目指す動きが高まっています。これは驚くことではありません。

Balaji氏（@balajis）は「中央集権対分散型の対立はテクノロジー界で何度も起こっている。クライアント側ではMac対Windows、サーバーではWindows対Linux、携帯電話ではiOS対Androidといった具合です…」と述べています。

この動きは、DeFi（分散型金融）の理念に詳しい人々にとっても共感を呼ぶものでしょう。

DeFiは、仮想通貨を分散化して透明性を確保し、高度なプライバシーを提供することが多く、銀行口座を持っていない人々や十分なサービスを受けられない人々にとって代替の金融システムを提供しています。

AIの非中央集権化を検証

私たちの目標は「AIの非中央集権化」で、ブロックチェーンの上にAIを構築し、オフチェーンでデータを処理・保存する機能を拡張しています。

多くの点で、機械学習用の Cosmos ブロックチェーンをスケールさせるために現在取り組んでいるテクノロジー（AIとMLを同じ意味で使用）は「OptimisticとZKロールアップによるEthereumのスケーリング」と類似しています。

EthereumにおいてOptimisticロールアップは「計算とデータストレージをオフチェーンに移動させることでスループットを増加させるために設計された L2 ソリューション」を指します。

Ethereumのスマートコントラクトが相互作用を管理し、シーケンサがサイドチェーン上でトランザクションを収集して実行し、サイドチェーンの検証者のセットが不正なトランザクションのロールアップを監視します。

同様に、ZKロールアップではノードは検証のための妥当性証明を提出する必要があります。妥当性証明とは、ロールアップが与えられたトランザクションのバッチを実行した結果であることを暗号技術で保証するものです。

私たちのモデルでは、トランザクションブロックの検証を超えて、任意のブロックチェーンネットワークの計算能力を拡張しようとしています。

このために「相互作用を管理するカスタムCosmos MLモジュール（またはスマートコントラクト）」「トランザクションを収集してスケジュールするシーケンサノード」「オフチェーンのMLタスク」を実行し、他のノードが不正な出力を出さないか監視するMLノードのセットを開発しています。

特定のケースでは、特定の入力が与えられた場合にMLタスクが正確に実行されたことを示すZK-Snark、つまり「知識の簡潔な証拠」を提出することもできます。

また、バリデータやMLノードに報酬を与えるために配布モジュールを変更する（またはスマートコントラクトを利用）こともあります。

なお、ホストチェーン上ではブロックチェーンとコンセンサスはTendermint BFT(*1)によって検証され、Tendermintの保証が引き継がれます。

(*1)BFT：耐故障性コンピュータシステムのこのような状態に対する回復力のこと

ただし、報酬やステーキング、およびスラッシングは、MLノードおよびオフチェーン計算のためにカスタマイズできます。

中央集権的なサービスを利用しない理由

なぜAWS（アマゾンが提供するクラウドサービス）やGoogle Cloud、または他の中央集権的な企業を単純に使用しないのでしょうか？

確かに、これらのクラウドサービスプロバイダが正確に機能し、指示された通りにモデルをトレーニングしていると信じることはできます。

しかし、最近の研究では、悪意のある学習者（またはクラウドサービスプロバイダ）がモデルに検出不可能なバックドアを仕掛けることができることが示されています。

表面上、モデルは正常に動作しますが、学習者は入力のわずかな変化でモデルの出力を変更するメカニズムを保持しています。

「TrojanNet」や「EvilNet」と呼ばれる他のモデルは、モデルの重み内に悪意のあるコードを埋め込むか、またはモデルを不規則に動作させることができます。

実際「敵対的機械学習」など、AIモデル内の脆弱性を悪用する分野が存在し、管理された一元化された環境であっても、信頼を最小限に抑える必要性が高まっています。

中央集権的なサービスでモデルトレーニングさせない理由

なぜOpenAIや他の中央集権的な組織を信頼してモデルをトレーニングさせないのでしょうか？

これはAIアライメント問題を引き起こします。

AIアライメントは "価値アライメント" とも呼ばれ「人工知能システムが人間の価値観、倫理、および目標と一致する方法で行動することを確認する研究分野」を指します。

しかし、これらの価値観や倫理を誰が決定するのでしょうか？

NEW YORK POSTの記事によれば「研究者たちはChatGPTが男性、共和党、アメリカ人、中流階級に対して比較的偏った結果を示すことがある」と報告しています。

要するに、少数の研究者だけがこの革新的な技術における重要なアライメントを行っているのです。AIモデルとトレーニングの民主化は、これらの価値観や倫理を整合させる際に多様な視点を得るために重要です。

プライバシーも大きな懸念事項であり、あなたのデータ、行動、個人情報が信頼している企業によって収集、販売、悪用されています。

中央集権的な組織は、今年初めにChatGPTがプライバシー上の懸念からイタリアで禁止されたように、AIへのアクセスを制限することもあります。

これらの問題に対処するために「分散型インフラネットワーク」が必要ですが、分散化だけでは十分ではありません。

なぜなら、既知の組織との取引で持っていた信頼の痕跡をなくしてしまうからです。

分散環境では、あなたが誰とやり取りしているのか分からないため、悪意のあるまたは敵対的な行動をする人たちとの危険性がはるかに増します。分散環境では信用せず、確認しなければなりません。

ゼロ知識証明を用いてML作業を検証

前述の通り、私たちはブロックチェーン上で機械学習作業をスケールアップおよび検証するために、2つの方法を使用しています。その内の1つが「zk-SNARKを通じて行う方法」です。

SNARK（Succinct Non-Interactive ARguments of Knowledge）は、暗号学的な基本要素で「証明者と呼ばれる一方の当事者が、検証者と呼ばれる別の当事者に、ある命題が真であることを実際の計算を行わなくても確認できるようにすること」を指します。

これは、分散型機械学習ネットワークにおいて特に重要です。ゼロ知識証明（ZKP）や検証可能な計算といった暗号技術を使用することで、計算の詳細を明らかにすることなく、計算が正確に行われたことを証明することができます。

これらの手法は、プライバシーを保護しながら正確さを強く保証し、訓練データやモデルの重み、またはモデルの出力を秘密に保つことができます。

信頼性のない環境では「MLノードの遅延」「不正」「ソフトウェアやハードウェアの故障により誤った予測」が発生してしまうかもしれません。

これらの問題は、zk-SNARKを使用することで克服することができます。zk-SNARKには、以下のような特性があります。

簡潔性：SNARKによって生成される証明はサイズが小さく、実際の計算を行うよりもはるかに速く対数オーダーで検証すること可能
非対話性：SNARKは非対話的であり、証明者が検証者とのやり取りやコミュニケーションなしに証明を生成できることを意味する
知識の論証：SNARKは証明者が特定の情報を知っているか、または特定の計算を実行したことを情報や計算の詳細を明らかにすることなく証明

現在、私たちは zkML（ゼロ知識証明を活用した機械学習の検証技術）を使った検証の実験を行っており、いくつかの小規模なニューラルネットワークモデルにおいて、数百万のパラメータでの作業を実証しています。

しかし、生成型AIの安定拡散モデルや大規模言語モデルのような大きなモデルについては、証明時間とセットアップ時間が非常に長く、数時間または数日かかるため、非効率的です。

SNARKのハードウェアによる高速化が開発されている一方で、SNARK検証の代替手段が必要とされています。

ML作業をOptimisticケースで検証

ここでは「Optimistic Case（最善の結果を期待するケース）」について考えます。暗号的証明なしで、何十億ものパラメータモデルに推論とトレーニングを実行することができます。

Ethereumの場合、もしOptimisticロールアップ（トランザクションを効率的にまとめる技術）が要求されると、通常、EVM（Ethereumの仮想マシン）で再実行されて正確性がチェックされます。

これはすべてのプロセスが決定的であるため可能です。しかし、機会学習には問題があり「GPUは基本的に非決定的」です。

以下の図を参照してください。

これは異なるGPUで生成された画像です。見た目は同じに見えますが、ピクセルレベルで微細な違いがあります。

MD5ハッシュ（データの一意性を確認するためのハッシュ関数）はまったく異なります。そして、同じプロンプト（指示文）とシードを同じマシンで再実行しても結果が異なります。

そのため、生成されたAIの出力のハッシュに確率性（ランダム性）が含まれることを考慮して、LSH（類似性を考慮したハッシュ手法）の技術を用いた検証プロセスを開発しました。

LSHは「類似した入力項目を確率的に同じ "バケツ" にグループ化する手法」です。

従来のハッシュ手法がハッシュ衝突（異なるデータに同じハッシュ値が割り当てられること）を最小限に抑えることを目的とするのに対し、LSHは、知覚的に類似した画像に対してそれらを意図的に最大化します。

我々の知覚的LSH技術の設計は「トラストレスネットワークにおける生成人工知能コンセンサス」というタイトルの出版物で詳細に説明されています。

この作業の簡単な概要として「人工的に生成されたデータサンプル間で何十億もの局所的に感度の高いハッシュ比較」を実行しました。

私たちは、オープンソースの拡散および大規模言語モデルから何百万ものデータサンプルを生成し、異種混合の確率的ネットワーク内でより多くまたはより少なく決定論的な出力を生成するための手順とトレードオフを示します。

さらに、検証のための異なるパラメータ設定の許容範囲と誤差限界についての実証的証拠を提供するために出力を分析します。

結果としては「平均ハッシュが最適なパフォーマンスと速度のトレードオフを持っていること」を示しています。

そして、ハミング距離（ハッシュの許容される差異）のしきい値が "2" の場合、ハッシュ衝突の個々の最悪のケースの可能性が97.7%であっても、3つの独立したノードでチェックすると99.82%、5つの独立したノードでチェックすると99.98%で生成されたAIの知覚的衝突を検出できます。

10億ものハッシュ比較を使用したクラス内衝突の確率は「0.0267%未満」となり、同一クラスの衝突が発生する確率が非常に低いことを示しています。

大規模言語モデル（LLM）の場合、貪欲法(*2)やn方向ビームサーチ(*3)を使用して100%の合意を得ることができ、追加の制約を使用することで、異なるLLM間でも合意を得ることができます。

(*2)貪欲法：欲張り法とも呼ばれ、問題を段階に分けたときに、各段階においての最適解を選択することを繰り返す方法

(*3)ビームサーチ：限られたセット内で最も可能性の高いノードを拡張することによってグラフを探索するヒューリスティック検索アルゴリズム

一般的な言葉で言えば、画像生成と言語生成の両方で生成されたAI作業を検証したい場合、最小限のオーバーヘッドと非常に高い精度でそれを行うことができ、悪意のある者がシステムを騙せる可能性はほぼゼロです。

生成AIトレーニングの文脈で（特にテキスト反転について実証）確率性の主要な源を特定し、最小限に抑えて検証可能な同期技術を紹介します。

ノイズの発生源を考慮に入れると、ノイズの除去がトレーニングプロセスにどのように影響するかについて調査するアブレーション研究を実行できます。

下の図ではトレーニングの手順を示し、ランダム性を最小限に抑えることが一定の誤差範囲内でトレーニング結果にどのようにつながるかを示しています。

最後に、トレーニングの一定な間隔でMLノードを一緒に結びつけることができる同期メカニズムを示します。

これにより、さらに狭い誤差範囲での信頼性が向上し、トレーニングプロセスが期待通りに実行されたことを示すエラーの証拠を生成することができます。

この研究は「分散ネットワークにおける信頼の最小化に対するAI検証と合意のための実用的で堅牢な基盤」を提供します。

ImageNet生成「SD v1.5」データセット

研究がもたらす追加的な貢献として「Stable Diffusion v1.5」を使用して生成された画像の新しいImageNetデータセットを開発し、公開しました。

このリポジトリはオリジナルのImageNetデータベースのサイズとクラス構造を模倣しており、データセットには1000クラスで1クラスあたり約1300枚、合計130万枚の画像が含まれています。

以下はclasses.txtからの抜粋です。

0 tench, Tinca tinca
1 goldfish, Carassius auratus
2 great white shark, white shark, man-eater, man-eating shark, Carcharodon caharias
3 tiger shark, Galeocerdo cuvieri
4 hammerhead, hammerhead shark
5 electric ray, crampfish, numbfish, torpedo
6 stingray
7 cock
8 hen
9 ostrich, Struthio camelus
... (up to 999)

各カテゴリは、1 〜 1300までのシードを使用してテキストプロンプト「{}の写真」で生成され、画像の解像度は "512 x 512" です。

これらのようなデータセットは、我々の結果を再現するために使用することができ、また「拡散モデルからの合成データはImageNetの分類を改善する」などのアプリケーションでも使用することができます。

以下はデータセットからランダムにサンプリングした画像の一部です。