アラインメントおよびドットプロット

Detrial では原子の三次元構造情報からタンパク質の構造を検知しています.
これはプログラミングをする立場では,自分にとって使いやすい形で一次構造と三次構造がセットで確保できることを意味します.
2 個のタンパク質から情報を取得すれば,通常の配列アラインメント以外に構造アラインメントも可能になるはずです.
Detrial では現在,以下の機能を実装しています.

  1. ドットプロット
  2. ローカル配列アラインメント
  3. 局所的な三次構造の類似性(二乗平均偏差)を使うローカル構造アラインメント
  4. ローカル配列アラインメントとローカル構造アラインメントの組み合わせ(線形結合です)
  5. アラインメントの結果に基づく重ね合わせ

「あまり似ていないタンパク質を比較する」ことを重視しているので,アラインメントはローカルアラインメントのみ実装しています.

構造アラインメントは開発中の機能です.現状は,構造アラインメントの開発を参照してください.

アラインメントウィンドウ

まず比較したいタンパク質を,メニューバーで [ウィジェット(W)]-[レイヤ 0] で表示される画面と [ウィジェット(W)]-[レイヤ 1] で表示される画面で開いて下さい.
両方のタンパク質を並べて表示する場合は [ウィジェット(W)]-[レイヤ 01] とします.
次いで,[検知(D)]-[アラインメント] とすればアラインメントの条件を設定するためのウィンドウが表れます.

アラインメントの条件設定

アラインメントウィンドウ

画像はアラインメントの条件を設定するためのウィンドウです.

ペプチドの選択

まずコンボボックスでペプチドを選択して下さい.
Detrial にはペプチドの検知を妨害するような原子を削除する機能は無ありません.
必要に応じて予めファイルを修正しておいて下さい(例えば,).

パラメータ

パラメータ枠で設定するウィンドウは,ドットプロット(Harr プロット)と同じ意味あいのパラメータです.
ひとまとめにする連続アミノ酸残基の個数を,1〜そのペプチドのアミノ酸残基数のあいだの数値で指定します.
実用上は,多くても数残基程度でよさそうです.

ギャップ開始ペナルティとギャップ伸長ペナルティは,ウィンドウとウィンドウとの間にギャップを挿入するときのペナルティです.
一般的なアラインメントを行う場合は,ウィンドウを 1 に設定します(ペプチドではなくアミノ酸残基の間にギャップを挿入する場合のペナルティですから).

閾値は,トレースバックを終了するときのスコアです.通常の配列アラインメントでは 0 です(スコアが 0 になったらトレースバック打ち切り).
ここでの構造アラインメントのスコアは,二乗平均偏差 RMSD を基にした値なので,常に正の値となります.
したがって正の閾値を設定してやる必要があります(設定しないと N-末までアラインメントされます).

アミノ酸置換行列

現在 PAM250 を使うか BLOSUM62 を使うかが選択できます.

ウェイトでは,配列アラインメントと構造アラインメントの比率(0.0〜1.0)を設定します.
0.0 で純粋な配列アラインメント,1.0 で純粋な構造アラインメントとなります.

パラメータ枠のウィンドウとアミノ酸置換行列枠のウェイトを,ともに 1 とすると通常の配列アラインメントとなります.

計算

条件を設定したら,「アラインメントを計算」ボタンか「ドットプロットを計算」ボタンかどちらかをクリックして下さい.

[スコア行列をプロット] ボタンをクリックすると,アラインメントを計算した場合はスコア行列が,ドットプロットを計算した場合はプロットが表示されます.

さらに,アラインメントを計算した場合は,アラインメントを表示したり,比較しているタンパク質を重ね合わせたりできます.

ドットマトリックスのプロット

ドットプロットの一例

画像はスコアマトリックスのプロットの一例です.
上の,「アラインメントの条件設定」で示した画像の条件をそのまま利用しました.
アミノ酸置換行列のウェイトが 0,ウィンドウが 3 なので,アミノ酸 3 残基分の主鎖の構造の類似度をプロットしたものということです.

縦方向がレイヤ 0,横方向がレイヤ 1 を示します.
スコアの最大値の 65% 以上の値を 5 段階に分けて,高い方から 赤→黃→緑→水→青 と色を付けています.
プロットされる値の閾値を変更するには,ラインエディタに数値を入力して「再描画」ボタンをクリックします.

斜め線が 2 本現れているということは,レイヤ 1 には,レイヤ 0 と三次元構造が類似した領域が 2 個存在することを示しています.

スコアマトリックスのプロット

スコアマトリックスのプロットの一例

画像はスコアマトリックスのプロットの一例です.
条件は変更せずに,(ドットプロットを計算するのではなく,)アラインメントを計算しました.
アミノ酸置換行列のウェイトが 0 なので,ウィンドウを 3 としたときの構造アラインメントということです.

ピークが 2 個現れているということは,レイヤ 1 には,レイヤ 0 とアミノ酸配列が相同な領域が 2 個存在することを示しています.

アラインメントの表示

アラインメントの一例

「アラインメントを表示」ボタンをクリックすると,作成されたアラインメントが表示されます.
このデータは,テキスト形式または,png 形式の画像として保存できます.
メニューコマンドは,このウィンドウの [ファイル] メニューのサブメニューに入っています.

重ね合わせ例

重ね合わせ例

画像は,引き続き同じ条件を使い,アラインメントに従って重ね合わせた後の状態です.
アミノ酸置換行列のウェイトが 0 という設定なので,構造アラインメントということです.

アラインメントされたアミノ酸(== 重ね合わされたアミノ酸)を空間充填様式で表示してアミノ酸の性質によって色分けしています.
アラインメントされていない部分は棒様式で表示しています.

右側のタンパク質は,左側のタンパク質とアミノ酸配列上の相同ドメインが 2 個タンデムにつながった構造をしています.
構造アラインメントに基づく重ね合わせで,片方のアミノ酸配列上の相同ドメインと重ね合わされていることを確認しました.

続いてアラインメントの条件設定で,アミノ酸置換行列のウェイトを 1 として実験してみました.
すなわち,ウィンドウを 3 残基としたときの配列アラインメントということです.
今度は,もう片方のドメインと重ねわされました.

重ね合わせをおこなったときに端末に出力される値を記しておきます.
前者が構造アラインメント,後者が配列アラインメントです.
アラインメントの条件が異なるので,スコアの大小関係に意味はありません.

ここでは構造アラインメントの方が大きい RMSD となっています.
この意味については検討中です(バグかもしれませんし,三次元構造の局所的類似度と全体的類似度の違いということかもしれません).

最大スコア : 722.338
アラインメント鎖長 : 55
アラインメント部分の RMSD : 1.01658

最大スコア : 155
アラインメント鎖長 : 48
アラインメント部分の RMSD : 0.843732
重ね合わせの操作手順

重ね合わせの操作手順をまとめておきます.

  1. 起動時にはレイヤ 0 が表示されています.[ファイル(F)]-[開く(O)] で 1 個めの分子を読み込みます
  2. [ウィジェット(W)]-[レイヤ 1] としてレイヤ 1 を表示させ,[ファイル(F)]-[開く(O)] で 2 個めの分子を読み込みます
  3. [ウィジェット(W)]-[レイヤ 01] とすれば,両方の分子を表示できます
  4. [検知(D)]-[アラインメント] で出現するウィンドウで,適宜条件を設定して [アラインメントの作成] ボタンをクリックし,アラインメントを作成します
  5. [重ね合わせ] ボタンをクリックすると,最大スコアのアラインメントにしたがって,レイヤ 1 の分子がレイヤ 0 の分子に重ね合わされた状態になるよう回転します
  6. マウス左ボタンと A キーとを同時に押しつつ,ドラッグすると,両方の分子が同時に回転します