構造アラインメントの開発

構造アラインメントの機能を開発した(新規と主張するつもりはないが,未確認).
局所的な立体構造の類似性を二乗平均偏差法で求めて,これをスコアとする.
通常のアミノ酸スコア行列に基づく配列アラインメントと併用可能である.

アラインメントアルゴリズムは,動的計画法による,アフィンギャップつきの配列アラインメントアルゴリズム
Goto, O., J. Mol. Biol.(1982), 162, 705-708; An Improved Algorithm for Matching Biological Sequences
を利用した.
また,座標の重ね合わせには線形代数用の C++ テンプレートライブラリ Eigen を使用した.

このアルゴリズムは,libbuilcule に取り込んだ上で,分子モデリングソフト Builcule に実装している(配列による重ね合わせ).

目次(ページ内リンク)


アルゴリズム
適用例

アルゴリズム

ウィンドウの設定

局所的な構造の類似性を測定するために,「ウィンドウ」を設定し,ウィンドウ単位で類似度を計算する.
この考え方は,ドットプロットで利用されている
ウィンドウを 1 とすると,アミノ酸ごとの比較となる.

すなわち,
アミノ酸を Aa1,Aa2,・・・と表し,ポリペプチドを Aa1-Aa2-Aa3-Aa4-Aa5・・・と表すものとする.
例えばウィンドウを 3 とすると,このポリペプチドから,
Aa1-Aa2-Aa3
Aa2-Aa3-Aa4
Aa3-Aa4-Aa5
:
といった部分構造が得られる.
得られた部分構造どうしの類似性を比較する.

ギャップペナルティの設定

ウィンドウとウィンドウとのあいだにはギャップを入れることができる.
通常の配列アラインメントと異なるのは,ギャップの挿入が,「アミノ酸かギャップか」ではなくて,「ウィンドウで設定した部分ペプチドかギャップか」となる点である.

配列に関する類似度(スコア)の計算

通常の配列アラインメントなら,アラインメントしたいペプチド間で,アミノ酸ごとのアミノ酸置換行列の値をスコアとする.
ここでは,アラインメントしたいペプチド間で,ウィンドウごとにスコアを計算する.
現在は,アミノ酸置換行列の値を合計してスコアとしている.

式で書けば,アミノ酸置換行列の値の合計を Sum,ウィンドウを Window,として,
SSeq = Sum / Window
ウィンドウが 1 なら,通常の配列アラインメントとなる.

構造に関する類似度(スコア)の計算

現在は,ウィンドウ内の,ペプチド主鎖 N,CA,C,および O の位置関係をスコアとしている.
すなわち,ウィンドウ幅 × 4 個の座標間の三次元構造を比較することとなる.
スコア(類似度)の計算法を以下に記す.

まず,二乗平均偏差(RMSD)が最小になるように対応する座標を重ね合わせ,そのときの RMSD をとりあえずのスコアとする(すぐ後で修正している).

RMSD が小さければ構造が似ているわけであるが,このままでは構造が一致するほど値が小さくなり,配列アラインメントと大小関係が逆転する.
これを回避するために,指数を使い,
1.0 / exp(RMSD)
として,大小関係を逆転させ,かつ 0 除算を避けるようにした(同じ構造どうしを比較すると RMS == 0).
上の式で求まる値は 0.0〜1.0 の範囲に収まる.

配列に関する類似度と構造に関する類似度を統合する.
構造アラインメントのスコアに,アミノ酸置換行列の値を掛けるのである.
こうするとスコアの桁が揃う.

式で書くと,
SStr = (1.0 / (exp(RMSD)) * aaReplRange - Threshold
ここで,
aaReplRange:使用するアミノ酸置換行列の値の幅
Threshold:閾値.

スコアの統合

ウェイト(Weight)を設定して上記 2 スコアを結合する.
Score = (1 - Weight) * SStr + Weight * SSeq
この式の場合,ウィンドウを 1,ウェイトを 1 とすると,やはり通常の配列アラインメントと一致する.

ただし,SStr は常に正の値をとる.
一方,配列アラインメントの場合のスコアの閾値は 0.0 である(スコアが 0 になればトレースバックを終了する).
このままでは構造アラインメントの割合が大きい場合,レースバックが終わらなくなる.
これを調整するために,閾値を設ける必要がある.


適用例

アラインメントスコアのプロット

このページ作成時点で開発中の Builcule10 で操作確認した.
図は,ウシ膵臓塩基性トリプシンインヒビター(縦方向)とビクニン(横方向)というタンパク質を比較したものである.
ビクニンは,ウシ膵臓塩基性トリプシンインヒビターと相同なドメインが 2 個タンデムに連なった構造をしている.
アミノ酸の一致度は,各々 3 割程度である.

図は,スコア行列(トレースバックに用いる行列)を 5 段階に色分けして表示したものである.
図中に,ウィンドウと構造アラインメントの割合を記した.

左上は通常の配列アラインメント,右上はウィンドウを設定した配列アラインメントである(3D:0% と書いた).
ウィンドウを設定することにより,相同なドメインが明瞭に現れた(赤い領域が 2 個存在する).

下側は,ウィンドウを 1 または 5 としたときの構造アラインメントである(3D:100% と書いた).
こちらはウィンドウによらず,相同なドメインが明瞭に現われている.


参考書の検索