研究の全工程、3 分で
失敗を繰り返しながら、論理回路だけで Transformer を超えるまでの道筋。
そもそも float って必要?
AI は GPU 並列の float 積和に依存する。論理ゲートだけで作れたら、CPU で爆速、消費電力激減、組み込みでも巨大 LM が動く。
DLGN で勾配を流す
論理ゲートは離散関数で勾配が流れない。16 種類のゲートを softmax で混合 し勾配を流す。学習後は argmax で純 Boolean に確定。
DLGN flat は届かなかった
素直に 4 段積んで TinyShakespeare 学習 → 論理回路で言語学習は 成功。だが Transformer には届かず。
LoopedDLGN で散る
Universal Transformer × Boolean。バナッハの不動点定理で美しい設計のはずが、量子化誤差が反復で 爆発。
HBA で発想を変える
Attention を ルーター と 値の集約 に分解。ルーターだけ Boolean、値は float のまま。誤差が深さ方向に伝播しない。
知識蒸留で逆転
教師 Transformer → 生徒 HBA に蒸留。Born-again 効果で、論理回路の生徒が教師を 0.13 上回る。