PDB ファイルから Discovery Studio でムービー作成

TeX ユーザの集い 2014 の資料作成テクニック第4弾。今回は「化学」の素材として用いた PDB ファイルの簡単な解説と、使用した専門ソフトの機能について。ただし、Windows でのみ使用できるソフトを使用している点については勘弁していただきたい。

Discovery Studio Visualizer の活用

今回の資料で「ATP 合成酵素」のモーターのような形を表現するために、化学のおすすめソフト (2014-09-01) で紹介した Discovery Studio Visualizer を用いた。非常に高機能で、分子モデルの表示や編集、構造最適化などが可能である。

こうした高機能なソフトウェアは、どうしても「Windows 限定」かつ「一企業による開発のためソースは非公開」のものが多い。今回の資料作成ではやむをえず2つ（ChemSketch と Discovery Studio Visualizer）だけ利用することにしたが、そのうちあまり知られていない DSV の方を紹介する。

Discovery Studio Visualizer のムービー出力機能

比較的小さな分子について、DSV を用いて立体的なモデルを ChemDraw や ChemSketch で描いた構造式から作成する方法は、既に化学者のつぶやきや有機化学美術館・分館で紹介されているので、それらを参照されたい*1。今回は、DSV の優れた機能の一つであるにもかかわらずあまり紹介されていない「WebM 形式のムービー出力」を紹介する。

WebM とは次世代HTML5の標準となる可能性があるムービーのフォーマットである。Google が開発しており、軽量かつ高品質でオープンという特徴がある。WebM を標準で出力できるという利点こそが、今回あえて DSV を使用した理由の一つである。

使用した素材：PDB ファイルについて

PDB とは Protein Data Bank の略であり、主にタンパク質の3次元構造の座標データを蓄積している国際データベースである。これらはすべて実験的に決定*2された構造であり、データは規定のフォーマットである PDB 形式というファイルで登録されている。試しにテキストエディタで 3oaa.pdb1 というファイル *3を開いてみると、以下のように書かれている（...は省略箇所）；

HEADER    HYDROLASE/TRANSPORT PROTEIN             05-AUG-10   XXXX              
TITLE     STRUCTURE OF THE E.COLI F1-ATP SYNTHASE INHIBITED BY SUBUNIT EPSILON  
KEYWDS    ROSSMANN FOLD, HYDROLASE, SYNTHASE, HYDROLASE-TRANSPORT PROTEIN       
KEYWDS   2 COMPLEX                                                              
EXPDTA    X-RAY DIFFRACTION                                                     
AUTHOR    G.CINGOLANI, T.M.DUNCAN                                               
JRNL        AUTH   G.CINGOLANI, T.M.DUNCAN                                      
JRNL        TITL   STRUCTURAL BASIS FOR INHIBITION OF BACTERIAL ATP SYNTHASE BY 
JRNL        TITL 2 SUBUNIT EPSILON OF THE ROTOR STALK                           
..........
HELIX    1   1 GLY A  100  LEU A  104  5                                   5    
HELIX    2   2 TYR A  150  ILE A  157  1                                   8    
HELIX    3   3 GLY A  174  ASN A  185  1                                  12    
..........
SHEET    1   A12 ALA E  28  GLN E  32  0                                        
SHEET    2   A12 ARG E  37  GLN E  44 -1  O  LEU E  40   N  LEU E  29           
SHEET    3   A12 ILE E  50  ALA E  55 -1  O  ARG E  52   N  GLN E  43           
..........
MODEL        1                                                                  
ATOM      1  N   GLU A  24     -96.456 -69.996  18.270  1.00140.76           N  
ANISOU    1  N   GLU A  24    17743  12795  22946  -2380  -1611  -3078       N  
ATOM      2  CA  GLU A  24     -95.514 -69.645  19.325  1.00136.72           C  
ANISOU    2  CA  GLU A  24    17291  12315  22342  -2415  -1534  -2856       C  
ATOM      3  C   GLU A  24     -96.213 -69.534  20.677  1.00127.42           C  
ANISOU    3  C   GLU A  24    16022  11233  21161  -2586  -1455  -2749       C  
ATOM      4  O   GLU A  24     -97.381 -69.904  20.820  1.00137.87           O  
ANISOU    4  O   GLU A  24    17233  12574  22577  -2692  -1454  -2834       O  
ATOM      5  CB  GLU A  24     -94.806 -68.339  18.987  1.00138.48           C  
ANISOU    5  CB  GLU A  24    17603  12650  22365  -2255  -1536  -2861       C  
ATOM      6  N   ALA A  25     -95.490 -69.022  21.667  1.00119.19           N  
ANISOU    6  N   ALA A  25    15026  10253  20010  -2612  -1387  -2565       N  
..........
ATOM   3667  NE2 GLN A 511     -38.405 -20.800  51.788  1.00136.91           N  
ANISOU 3667  NE2 GLN A 511    17411  19919  14690  -4836  -2629    473       N  
TER    3668      GLN A 511                                                      
ATOM   3669  N   HIS B  26    -117.687 -44.915 -10.758  1.00148.44           N  
ANISOU 3669  N   HIS B  26    14705  13624  28073  -4254  -8439   -752       N  
ATOM   3670  CA  HIS B  26    -118.524 -43.770 -10.418  1.00149.35           C  
ANISOU 3670  CA  HIS B  26    14542  13760  28443  -4249  -8388   -642       C  
ATOM   3671  C   HIS B  26    -117.691 -42.637  -9.830  1.00148.14           C  
ANISOU 3671  C   HIS B  26    14395  13765  28126  -4106  -8147   -656       C  
..........
ATOM  24739  CE  MET H 138     -59.000  -2.886  -1.378  1.00111.79           C  
ANISOU24739  CE  MET H 138    13732  14963  13779  -2925  -1147  -2663       C  
TER   24740      MET H 138                                                      
HETATM24741  PG  ANP A 600     -57.861 -38.549  27.872  1.00129.11           P  
ANISOU24741  PG  ANP A 600    17064  16410  15582   -922   4206  -2345       P  
HETATM24742  O1G ANP A 600     -58.416 -37.900  26.570  1.00109.06           O  
ANISOU24742  O1G ANP A 600    14457  13781  13202   -836   4365  -2209       O  
..........
HETATM24923  O   HOH H 141     -22.765  37.061  37.160  1.00 43.57           O  
HETATM24924  O   HOH H 142     -20.140   8.977  19.901  1.00 58.69           O  
ENDMDL                                                                          
MASTER        0    0    0  518  489    0  110    699573   32    0 1044          
END

比較的読みやすいテキストファイルであるが、簡単に説明すると

HEADER から数行にわたり様々な付随情報が記されるのに続き、ATOM 行として実際の座標データが原子の数だけ続く。
今回の ATP 合成酵素は 8 つの部品（それぞれは一続きの鎖）が合わさったもの（＝サブユニットが複合体を形成している）なので、一続きの鎖が終わるごとにその末端の原子座標を表す ATOM 行に続いて TER 行を入れて区切ってある。
各 ATOM 行は、左から「原子の通し番号」「原子タイプ」「アミノ酸の種類*4」「鎖の ID*5」「鎖の中で何番目のアミノ酸か」「座標情報」の順に記されている*6。
ATOM 行が終わると HETATM 行があるが、これはタンパク質に結合している他の小分子や溶媒などの立体情報を記載している。

このようなテキストファイルを DSV は解釈し、以下のように表示する。

f:id:acetaminophen:20141117235628p:plain

デフォルトでは赤が「へリックス」（＝らせん構造；PDB ファイルの HELIX にあたる）、水色が「シート」（SHEET にあたる）を表していて、このようにタンパク質分子の部分ごとにみられるモチーフ別に色分けされる。

色の変更：鎖ごとに色分け

今回の ATP 合成酵素は α サブユニット 3つ（A, B, C 鎖）と β サブユニット 3つ（D, E, F 鎖）、それに中央の軸にあたる γ サブユニット（G 鎖）と ε サブユニット（H 鎖）の計8つの鎖から成る。今回は最終的に α を青、β を緑、γ を赤、ε を黄色に着色したが、このような編集作業について簡単に説明する。

まずは DSV で配列（シーケンス）を表示する必要がある。メニューの [Sequence] > [Show Sequence] を選択すると、以下のようにアミノ酸の一文字表記配列が表示される。区切りごとに先頭から順に A, B, C, ... 鎖となっているので、ドラッグして A 鎖を選択してみた。

f:id:acetaminophen:20141118010244p:plain

もう一度タブでモデル表示に戻り、モデルウィンドウで右クリックメニューから [Color] > [Color] を選択すると、色を指定できる。

f:id:acetaminophen:20141118010451p:plain

今度はモデル全体を選択し（Select All）、右クリックメニューの [Display Style] で CPK を選択すると、以下のように各原子が球で表示される。

f:id:acetaminophen:20141118010639p:plain

このような作業で適宜調節すると、以下のスライド中央に示した画像ができる。今回は右クリックメニューでテキストボックスも挿入してある。

f:id:acetaminophen:20141109162311p:plain

いよいよムービーへ

ムービー作成もいたって簡単である。右クリックメニューから [Add] を選択する（ムービーのアイコン）と、そのフレームがキャプチャされ、ストーリーボードに取り込まれる*7。

f:id:acetaminophen:20141118010950p:plain

f:id:acetaminophen:20141118011103p:plain

あとは適宜「分子モデルの角度をずらしてキャプチャ」を数回繰り返し、Export Movie とすると WebM ムービーが生成する。フレームとフレームの間はうまいことなめらかにつないでくれるし、簡単！

今回は movie15 で TeX ソース中に取り込みたかったので、前回紹介したとおり ffmpeg を利用した、というわけだ。

で、なぜここだけムービーにしたか

本当はここも U3D の 3D モデルにしたかったのだが、辞めた理由がある。それは、原子数が多いと、Adobe のレンダリング機能では扱いきれなくなる恐れがあったからである。実際、PDF ファイルに埋め込んだ場合の U3D のサイズ分は 1 MB にすら満たないが、Adobe Reader でレンダリングすると1分では済まない。マシンによってはフリーズする可能性もある。それもそのはず、ATP 合成酵素は2万個以上の原子からなり、すなわち U3D の実際の内容は「球の中心座標と半径と色」という莫大なデータ量を保持していることになる。これを表示するとなると計算量が膨大になり、最近のマシンをもってしても時間がかかってしまい、LT 5分の時間を大幅に削られてしまう恐れがあった。DNA やアミロースなどはそれに比べて少ない原子数なので、Adobe による U3D 表示で問題なかったのである。

*1:僕 Acetaminophen のアバターでも、この方法で作成したアセトアミノフェンの分子モデルを使っている。

*2:X線結晶解析法、NMR法など。

*3:PDB ID: 3OAA の Biological Assembly 1 がそれである。

*4:タンパク質はアミノ酸がたくさん連なったものである。アミノ酸はいくつかの原子でできているので、ある原子がなんというアミノ酸の要素なのか指定する必要があるわけだ。

*5:一続きの鎖ごとに A 鎖、B 鎖、…のように呼ばれる。

*6:ATOM 行ごとに ANISOU 行が付随しているが、これは異方性温度因子の情報を記したものであるらしい。詳細はパス。

*7:ストーリーボードがもし現れなければ、メニューから [View] > [Storyboard] で現れる。