PDB ファイルから Discovery Studio でムービー作成
TeX ユーザの集い 2014 の資料作成テクニック第4弾。今回は「化学」の素材として用いた PDB ファイルの簡単な解説と、使用した専門ソフトの機能について。ただし、Windows でのみ使用できるソフトを使用している点については勘弁していただきたい。
Discovery Studio Visualizer の活用
今回の資料で「ATP 合成酵素」のモーターのような形を表現するために、化学のおすすめソフト (2014-09-01) で紹介した Discovery Studio Visualizer を用いた。非常に高機能で、分子モデルの表示や編集、構造最適化などが可能である。
こうした高機能なソフトウェアは、どうしても「Windows 限定」かつ「一企業による開発のためソースは非公開」のものが多い。今回の資料作成ではやむをえず2つ(ChemSketch と Discovery Studio Visualizer)だけ利用することにしたが、そのうちあまり知られていない DSV の方を紹介する。
Discovery Studio Visualizer のムービー出力機能
比較的小さな分子について、DSV を用いて立体的なモデルを ChemDraw や ChemSketch で描いた構造式から作成する方法は、既に化学者のつぶやきや有機化学美術館・分館で紹介されているので、それらを参照されたい*1。今回は、DSV の優れた機能の一つであるにもかかわらずあまり紹介されていない「WebM 形式のムービー出力」を紹介する。
WebM とは次世代HTML5の標準となる可能性があるムービーのフォーマットである。Google が開発しており、軽量かつ高品質でオープンという特徴がある。WebM を標準で出力できるという利点こそが、今回あえて DSV を使用した理由の一つである。
使用した素材:PDB ファイルについて
PDB とは Protein Data Bank の略であり、主にタンパク質の3次元構造の座標データを蓄積している国際データベースである。これらはすべて実験的に決定*2された構造であり、データは規定のフォーマットである PDB 形式というファイルで登録されている。試しにテキストエディタで 3oaa.pdb1 というファイル*3を開いてみると、以下のように書かれている(...は省略箇所);
HEADER HYDROLASE/TRANSPORT PROTEIN 05-AUG-10 XXXX TITLE STRUCTURE OF THE E.COLI F1-ATP SYNTHASE INHIBITED BY SUBUNIT EPSILON KEYWDS ROSSMANN FOLD, HYDROLASE, SYNTHASE, HYDROLASE-TRANSPORT PROTEIN KEYWDS 2 COMPLEX EXPDTA X-RAY DIFFRACTION AUTHOR G.CINGOLANI, T.M.DUNCAN JRNL AUTH G.CINGOLANI, T.M.DUNCAN JRNL TITL STRUCTURAL BASIS FOR INHIBITION OF BACTERIAL ATP SYNTHASE BY JRNL TITL 2 SUBUNIT EPSILON OF THE ROTOR STALK .......... HELIX 1 1 GLY A 100 LEU A 104 5 5 HELIX 2 2 TYR A 150 ILE A 157 1 8 HELIX 3 3 GLY A 174 ASN A 185 1 12 .......... SHEET 1 A12 ALA E 28 GLN E 32 0 SHEET 2 A12 ARG E 37 GLN E 44 -1 O LEU E 40 N LEU E 29 SHEET 3 A12 ILE E 50 ALA E 55 -1 O ARG E 52 N GLN E 43 .......... MODEL 1 ATOM 1 N GLU A 24 -96.456 -69.996 18.270 1.00140.76 N ANISOU 1 N GLU A 24 17743 12795 22946 -2380 -1611 -3078 N ATOM 2 CA GLU A 24 -95.514 -69.645 19.325 1.00136.72 C ANISOU 2 CA GLU A 24 17291 12315 22342 -2415 -1534 -2856 C ATOM 3 C GLU A 24 -96.213 -69.534 20.677 1.00127.42 C ANISOU 3 C GLU A 24 16022 11233 21161 -2586 -1455 -2749 C ATOM 4 O GLU A 24 -97.381 -69.904 20.820 1.00137.87 O ANISOU 4 O GLU A 24 17233 12574 22577 -2692 -1454 -2834 O ATOM 5 CB GLU A 24 -94.806 -68.339 18.987 1.00138.48 C ANISOU 5 CB GLU A 24 17603 12650 22365 -2255 -1536 -2861 C ATOM 6 N ALA A 25 -95.490 -69.022 21.667 1.00119.19 N ANISOU 6 N ALA A 25 15026 10253 20010 -2612 -1387 -2565 N .......... ATOM 3667 NE2 GLN A 511 -38.405 -20.800 51.788 1.00136.91 N ANISOU 3667 NE2 GLN A 511 17411 19919 14690 -4836 -2629 473 N TER 3668 GLN A 511 ATOM 3669 N HIS B 26 -117.687 -44.915 -10.758 1.00148.44 N ANISOU 3669 N HIS B 26 14705 13624 28073 -4254 -8439 -752 N ATOM 3670 CA HIS B 26 -118.524 -43.770 -10.418 1.00149.35 C ANISOU 3670 CA HIS B 26 14542 13760 28443 -4249 -8388 -642 C ATOM 3671 C HIS B 26 -117.691 -42.637 -9.830 1.00148.14 C ANISOU 3671 C HIS B 26 14395 13765 28126 -4106 -8147 -656 C .......... ATOM 24739 CE MET H 138 -59.000 -2.886 -1.378 1.00111.79 C ANISOU24739 CE MET H 138 13732 14963 13779 -2925 -1147 -2663 C TER 24740 MET H 138 HETATM24741 PG ANP A 600 -57.861 -38.549 27.872 1.00129.11 P ANISOU24741 PG ANP A 600 17064 16410 15582 -922 4206 -2345 P HETATM24742 O1G ANP A 600 -58.416 -37.900 26.570 1.00109.06 O ANISOU24742 O1G ANP A 600 14457 13781 13202 -836 4365 -2209 O .......... HETATM24923 O HOH H 141 -22.765 37.061 37.160 1.00 43.57 O HETATM24924 O HOH H 142 -20.140 8.977 19.901 1.00 58.69 O ENDMDL MASTER 0 0 0 518 489 0 110 699573 32 0 1044 END
比較的読みやすいテキストファイルであるが、簡単に説明すると
- HEADER から数行にわたり様々な付随情報が記されるのに続き、ATOM 行として実際の座標データが原子の数だけ続く。
- 今回の ATP 合成酵素は 8 つの部品(それぞれは一続きの鎖)が合わさったもの(=サブユニットが複合体を形成している)なので、一続きの鎖が終わるごとにその末端の原子座標を表す ATOM 行に続いて TER 行を入れて区切ってある。
- 各 ATOM 行は、左から「原子の通し番号」「原子タイプ」「アミノ酸の種類*4」「鎖の ID*5」「鎖の中で何番目のアミノ酸か」「座標情報」の順に記されている*6。
- ATOM 行が終わると HETATM 行があるが、これはタンパク質に結合している他の小分子や溶媒などの立体情報を記載している。
このようなテキストファイルを DSV は解釈し、以下のように表示する。
デフォルトでは赤が「へリックス」(=らせん構造;PDB ファイルの HELIX にあたる)、水色が「シート」(SHEET にあたる)を表していて、このようにタンパク質分子の部分ごとにみられるモチーフ別に色分けされる。
色の変更:鎖ごとに色分け
今回の ATP 合成酵素は α サブユニット 3つ(A, B, C 鎖)と β サブユニット 3つ(D, E, F 鎖)、それに中央の軸にあたる γ サブユニット(G 鎖)と ε サブユニット(H 鎖)の計8つの鎖から成る。今回は最終的に α を青、β を緑、γ を赤、ε を黄色に着色したが、このような編集作業について簡単に説明する。
まずは DSV で配列(シーケンス)を表示する必要がある。メニューの [Sequence] > [Show Sequence] を選択すると、以下のようにアミノ酸の一文字表記配列が表示される。区切りごとに先頭から順に A, B, C, ... 鎖となっているので、ドラッグして A 鎖を選択してみた。
もう一度タブでモデル表示に戻り、モデルウィンドウで右クリックメニューから [Color] > [Color] を選択すると、色を指定できる。
今度はモデル全体を選択し(Select All)、右クリックメニューの [Display Style] で CPK を選択すると、以下のように各原子が球で表示される。
このような作業で適宜調節すると、以下のスライド中央に示した画像ができる。今回は右クリックメニューでテキストボックスも挿入してある。
いよいよムービーへ
ムービー作成もいたって簡単である。右クリックメニューから [Add] を選択する(ムービーのアイコン)と、そのフレームがキャプチャされ、ストーリーボードに取り込まれる*7。
あとは適宜「分子モデルの角度をずらしてキャプチャ」を数回繰り返し、Export Movie とすると WebM ムービーが生成する。フレームとフレームの間はうまいことなめらかにつないでくれるし、簡単!
今回は movie15 で TeX ソース中に取り込みたかったので、前回紹介したとおり ffmpeg を利用した、というわけだ。
で、なぜここだけムービーにしたか
本当はここも U3D の 3D モデルにしたかったのだが、辞めた理由がある。それは、原子数が多いと、Adobe のレンダリング機能では扱いきれなくなる恐れがあったからである。実際、PDF ファイルに埋め込んだ場合の U3D のサイズ分は 1 MB にすら満たないが、Adobe Reader でレンダリングすると1分では済まない。マシンによってはフリーズする可能性もある。それもそのはず、ATP 合成酵素は2万個以上の原子からなり、すなわち U3D の実際の内容は「球の中心座標と半径と色」という莫大なデータ量を保持していることになる。これを表示するとなると計算量が膨大になり、最近のマシンをもってしても時間がかかってしまい、LT 5分の時間を大幅に削られてしまう恐れがあった。DNA やアミロースなどはそれに比べて少ない原子数なので、Adobe による U3D 表示で問題なかったのである。
*1:僕 Acetaminophen のアバターでも、この方法で作成したアセトアミノフェンの分子モデルを使っている。
*3:PDB ID: 3OAA の Biological Assembly 1 がそれである。
*4:タンパク質はアミノ酸がたくさん連なったものである。アミノ酸はいくつかの原子でできているので、ある原子がなんというアミノ酸の要素なのか指定する必要があるわけだ。
*5:一続きの鎖ごとに A 鎖、B 鎖、…のように呼ばれる。
*6:ATOM 行ごとに ANISOU 行が付随しているが、これは異方性温度因子の情報を記したものであるらしい。詳細はパス。
*7:ストーリーボードがもし現れなければ、メニューから [View] > [Storyboard] で現れる。