生命現象のNP-complete性

Decrypt history, Encrypt future™

生命現象のNP-complete性

生命のシステム(特にタンパク質の構造や進化)がNP完全(NP-complete)NP困難(NP-hard)であることを数学的・計算機科学的に証明した論文。

1. タンパク質の折りたたみが「NP困難」であることの証明(1993年)

論文名: Finding the lowest free energy conformation of a protein is an NP-hard problem: Proof and implications

https://link.springer.com/article/10.1007/BF02460703

著者: Ron Unger, John Moult

掲載誌: Bulletin of Mathematical Biology (1993)

  • 概要:「アミノ酸の配列から、最も自由エネルギーが低くなる(安定した)3次元の立体構造を見つけ出す問題」がNP困難(NP-hard)であることを、格子モデル(Lattice Model)という数学的アプローチを用いて証明した論文。生命が瞬時に解いている計算が、コンピューターにとっては総当たりが必要な最難関のパズルであることを示しました。

2. HPモデル(疎水性、親水性)における「NP完全」の証明(1998年)

論文名: Protein Folding in the Hydrophobic-Hydrophilic (HP) Model is NP-Complete

https://computingbiology.github.io/docs/berger1998.pdf

著者: Bonnie Berger, Tom Leighton

掲載誌: Journal of Computational Biology (1998)

  • 概要:タンパク質をよりシンプルに「水を嫌う部分(疎水性)」と「水に馴染む部分(親水性)」の2種類のコード(HPモデル)として簡略化しても、それを3次元格子に最適に配置する問題はNP完全(NP-complete)になることを証明しました。

3. 人工的な遺伝子(タンパク質)設計の「NP困難」性の証明(2002年)

論文名: Protein Design is NP-hard

https://pubmed.ncbi.nlm.nih.gov/12468711

著者: Niles A. Pierce, Erik Winfree

掲載誌: Protein Engineering, Design and Selection (2002)

  • 概要:こちらは折りたたみとは逆の「デザイン(設計)」に関する論文です。望む立体構造(機能)を満たすために、「どのようなアミノ酸の配列(DNAコード)にすればいいか」を逆算して設計する問題もまたNP困難であることを、論理回路の基礎である「SAT問題(充当可能性問題)」からの帰着によって証明しました。

論文が投げかけるパラドックス

これらの論文すべてに共通して書かれているのが、「数学的にはスーパーコンピューターを何億年も回さなければ解けない(NP完全/困難な)はずなのに、なぜ犬や人間などの『実際の生命』は、細胞の中でわずか数ミリ秒でこの解を出せているのか?」という謎です。これは科学界で「レヴィンタールのパラドックス(Levinthal’s paradox)」と呼ばれており、現在でも以下のような仮説で研究が進められています。

  • 生命は「唯一絶対の完璧な答え」を最初から計算しているのではなく、物理法則に従って坂道を転がり落ちるように、エネルギー的に「手近な合格点(近似解)」に一瞬でたどり着く特殊なルートを、進化の過程でDNAに書き込んできた。
  • タンパク質の構造がNP-completeまたはNPよりも難しいNP-hardなのであれば、単独の限定資源リソースで解を出すことはできないはずである
  • しかし生物は対話型証明機能やNP-completeの系の外部の決定論理を用いることで、「システムの外部から与えられる選択(公理選択・仕様決定)」あるいは「外部環境との相互作用」によってNP-hardのルートを確定している。望む機能や構造から、それを満たすアミノ酸配列(DNAコード)を逆算して決定するというステップは、生物学的な物理法則やゲノムの基本規則というシステムの内部だけで自動的に導き出せるものではなく、システム外部からのインプットを用いた自己更新プログラムが備わっていると言える。

1. Protein Design and Computational Complexity

Prof. Erik Winfree

  • Affiliation: California Institute of Technology (Caltech)
  • Key Paper:Pierce, N. A., & Winfree, E. (2002). Protein design is NP-hard. Protein Engineering, Design and Selection, 15(10), 779–782.https://pubmed.ncbi.nlm.nih.gov/12468711

Prof. David Baker

2. Phylogenetic Tree Reconstruction

Prof. Tandy Warnow

  • Affiliation: University of Illinois Urbana-Champaign (UIUC)
  • Key Paper (On the complexity of phylogenetics):Roch, S., & Warnow, T. (2015). On the robustness to gene tree estimation error of species tree methods. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 12(6), 1302–1313 https://www.biorxiv.org/content/10.1101/2024.11.22.624944v1.full

Prof. Zhi-Zhong Chen (陳 致中)

3. RNA Structure and Biological Networks

Prof. Tatsuya Akutsu (阿久津 達也)

  • Affiliation: Kyoto University, Bioinformatics Center
  • Dynamic programming algorithms for RNA secondary structure prediction with pseudoknots. Discrete Applied Mathematics, 104(1-3), 45–62
  • https://www.sciencedirect.com/science/article/pii/S0166218X00001864
  • Control of Boolean networks: Hardness results and algorithms for treestructured networks. Journal of Theoretical Biology, 244(4), 670–679.https://pubmed.ncbi.nlm.nih.gov/17069859/
  • Improved hardness of maximum common subgraph problems on labeled graphs of bounded treewidth and bounded degree,2020

Highly accurate protein structure prediction with AlphaFold 2021

https://www.nature.com/articles/s41586-021-03819-2

3SAT(NP完全)に匹敵するタンパク質折り畳み問題を、巧妙な構造的トポロジーによって2SAT(P時間)へと還元し、それをゼロ知識証明(ZKP)的なインタラクションによって検証・発見していくプロセスと見立てることができる。

一般的なタンパク質構造予測(3次元空間における全原子の干渉)は、アミノ酸3つの位置関係(3点間の距離や角度)の制約を同時に満たす必要があり、これは数理的に3SAT(3つの変数の論理和の積:NP完全)の構造を持っています。だから組み合わせが爆発します。

しかし、AlphaFold 2のEvoformerは、これを実質的に2SAT(2つの変数の関係性:P時間で解ける)へと還元(リダクション)しています。

  • ペア表現(Pair Representation)への落とし込み: Evoformerは、3つ組の複雑な関係を直接解くのではなく、すべての情報を「アミノ酸Aとアミノ酸B」という2者間の2次元マトリクス(ペア表現)に徹底的に落とし込みます。
  • 軸回転による制約の線形化: アミノ酸同士の結合角度の計算において、3次元の絶対座標ではなく、隣り合う2点間の「局所的な軸の回転(トーション角)」という2変数間の関係に変換して処理します。

3つの変数が絡み合う3SATの迷宮を、巧みな幾何学的・生物学的トポロジーの変形によって、「2つの変数の矛盾を解消すれば、ドミノ倒し的に全体が解ける」2SATの構造へと鮮やかに還元している。

「ZKP(ゼロ知識証明)型」の検証と発見

AlphaFold 2のEvoformerおよび全体アーキテクチャが「正しい構造」を発見していくプロセスは、まさにゼロ知識証明(Interactive Proof System / ZKP)のプロトコルと類似する。

  • 証明者(Prover)としてのMSAと残基ガス: 「進化の歴史(多重整列配列: MSA)」や、物理の壁を無視して自由に動く「残基ガス(Residue Gas)」のモジュールは、いわば全知全能の証明者(Prover-Merlin)です。「これが最適な立体配置の『証拠(Witness)』だ」と、次々に幾何学的な提案を繰り出します。
  • 検証者(Verifier)としての幾何学的・物理的制約: 対する「ペア表現」や後段の「構造モジュール(Structure Module)」は、誠実な検証者(Verifier-Arthur)です。提示された証拠が、物理的な距離の矛盾や、アミノ酸の化学的性質と矛盾していないかを、何層もの注意(Attention)メカニズムを通じて確率的に検証(クエリ)します。
  • 知識の非開示と「発見」: AIは、タンパク質が折れ畳まれる「物理的なエネルギー計算の全貌(知識)」を1から真面目にシミュレーション(開示)することはありません。しかし、証明者と検証者がネットワークの内部で反復的な相互作用(対話型証明)を重ねることで、最終的に「これが100%正しい3D構造である」という確信(高い信頼度スコア:pLDDT(predicted Local Distance Difference Test))へと、超高速に到達(発見)します。

生物の行動、成長、進化の結末は、単に坂道をボールが転がり落ちるような受動的な物理現象だけでは説明できず、そこには、環境のトポロジー(構造的な制約や近道)と生物自身の意思・選択(能動性)が決定的な役割を果たしていると言える。