脳は宇宙よりも広い？〜ニューラルネットワークの広大な世界

ディープラーニングで学習をしていると、その学習過程で一体どんなことが起きているんだろう、と神秘的な気持ちになることがあります。ニューラルネットワークは人間の脳を模した、比較的単純な数学モデルです。ChatGPTのようなモデルには何千億という膨大なパラメーターが使われていますが、私が扱うパラメーターが数 100 万未満のモデルでさえ、非常に奥深いものがあります。

入力データから正解データをニューラルネットワークが予測し、予測と正解データのズレを損失関数で表し、損失関数を通してネットワークのパラメーターを調整する仕組みの模式図。

損失関数によるネットワークのパラメーター（w)を調整する仕組み。

学習では「損失関数」と呼ばれるものが使われ、ある入力データ $x$ から特定の出力データ $y$ を予測する際の誤差を表す関数です。例えば、モデルを関数 $f$ として、あるデータペア $(x, y)$ に対して $l = (f(x) - y)^2$ という損失関数を考えます。この関数では、 $f(x)$ が $y$ からずれると値が大きくなり、逆にずれが小さいほど $l$ も小さくなります。言い換えれば、損失関数の値が小さければ小さいほど、モデルは正確に入力から出力を予測しているのです。

損失関数 $l$ は、ニューラルネットワークのパラメーターに ( $y$ を通して) 依存する関数でもあります。訓練データ全体に対する $l$ の値を最小化するパラメーターを見つけることで、モデルは予測能力を獲得します。

パラメーター空間の広さ
宇宙との比較
次元の威力
おすすめカテゴリー

パラメーター空間の広さ

わかりやすいように、パラメーターが３つだけ (例えば $w_x, w_y, w_z$ ) の場合を考えてみましょう。この場合、損失関数 $l$ は３つのパラメーターによる空間上で定義されます。これは数学的には、我々が普段暮らしている３次元空間 ( $w_x, w_y, w_z$ ) と同じです。

このパラメーター空間で最適な値を探す過程は、例えるなら「どこからか漂う良い香りの源を突き止めるようなもの」です。「匂いの強さ」を表す量S (Smell)を考えると、Sは三次元空間の各点 (x, y, z) で一意の値を持ちます。これは、損失関数 $l$ が ( $w_x, w_y, w_z$ ) の各点で値を持つことに対応します。香りの源（匂いが最大の点）を探すのは、損失関数の最小値を探すのと数学的には同じです。

では、このパラメーター空間はどれほど広いのでしょうか？コンピューター上ではパラメーターの値はデジタル化され、通常、 $\text{float32}$ という形式で表現されます。この形式では各パラメーターが $2^{32} \sim 10^9$ 通りの数字で表されます。例えばパラメーターが３つなら、全体の組み合わせは $10^9 \times 10^9 \times 10^9 = 10^{27}$ 通りになります。そして、もしパラメーターが100万個程度（決して大規模ではない）だとすると、その組み合わせは $10^{9 \times 1000000} = 10^{9000000}$ 通りにもなります。これは想像を絶する広さです。

宇宙との比較

この広さを、宇宙の規模と比較してみましょう。観測されている宇宙の広さはおよそ140億光年です。物理学では「プランクスケール」（詳しくは天文学辞典を参照）と呼ばれる、 $1.6 \times 10^{-35}$ m と極小の長さの単位があります。これより小さいスケールでは「一般相対性理論」と「量子力学」を融合させなければならないか、あるいはそもそも私達の空間の最小単位かもしれません。

140億光年 ( $\sim 10^{26}$ m) の宇宙をプランクスケールの立方体でデジタル化すると、そのブロックの総数は $10^{26 + 35} \times 10^{26 + 35} \times 10^{26 + 35} = 10^{183}$ 個となります。なんとニューラルネットワークのパラメーター空間は、宇宙とはまったく比較にならない広さなのです。

宇宙をプランクスケールで格子状に分割した、マトリックス風の図。

次元の威力

仮に各パラメーターの取りうる値を極端に減らし、 $\pm 1$ のたった２通りしか取らないとしましょう。それでもその組み合わせ（ブロックの数）は $2^{1000000} \sim 10^{300000}$ 通りになります。これも、宇宙の広さ ( $10^{183}$ ) とは比べものにならない大きさです。正真正銘、ニューラルネットワークのパラメーター空間は宇宙とは比べ物にならないくらい広いようです。