しゅうせいちゅう
Alphafoldの実行に必要なデータベースを準備します
データベースと言ってもタンパク質配列や立体構造データです.
alphafoldのgitの中に取得用スクリプトが入ってますので、それを実行すれば整いますが、結構大きいです
これらを取得するスクリプトが同封されている.
ただそのスクリプトの実行には rsync や aris2 コマンドが必要でそれらを事前に入れておく.
[root@centos7 ~]# yum install epel-release
[root@centos7 ~]# yum --enablerepo=epel install rsync aria2っでこれらデータを入れておく場所(ここでは「/af」)を用意して、取得用スクリプトを実行する.
*データ格納場所はSSDとかの高速なデバイスが望ましく、オリジナルのフルセットなBFDを使うなら色々合わせて 2TB の容量が必要かな. 最適化されたBFDを使うなら 1TB ほどかな
[root@centos7 ~]# /apps/alphafold/scripts/download_all_data.sh /af
(あるいは)
[root@centos7 ~]# /apps/alphafold/scripts/download_all_data.sh /af reduced_dbs*「reduced_dbs」を設けるとより早く検索できる最適化されたBFD(Big Fantastic Database)が得られる オリジナルのBFDが1.7TBの容量です。「reduced_dbs」なら最適化された600GBのBFDが得られる
*注意. 「download_all_data.sh」を途中で止めて、再度実行するとまた初めからダウンロードします. 既に取得したにも関わらす再度ダウンロードを行うので注意.
「download_all_data.sh」の中身を見ると、各データセットごとのスクリプトを連続して実行しているだけなので、
もし途中で止まったら、既にダウンロード完了したスクリプト行を無効化して続ければ幸せになるのかと.
versionが変わって従来(v2.0.0)から取得先が変更されたものもあります. v2.1.1で新に「UniProt」と「pdb_seqres」が追加された模様
mmcifとuniref90は該当スクリプトを修正して国内ミラーサイトから取得した方がいいかも.
|
最終的な各フォルダのサイズは下記のようになる. 今回は「reduced_dbs」を有効にしています.
「/apps/alphafold/scripts/download_all_data.sh /af reduced_dbs」として実行
[root@centos7 ~]# /apps/alphafold/scripts/download_all_data.sh /af reduced_dbs
[root@centos7 ~]# cd /af
[root@centos7 af]# du -hs ./*
64G ./mgnify
5.3G ./params
56G ./pdb70
221G ./pdb_mmcif
218M ./pdb_seqres
17G ./small_bfd
87G ./uniclust30
104G ./uniprot
63G ./uniref90
[root@centos7 af]#あとファイル所有者が 0600(r--) とかもあるので適時修正. pdb70 とか uniclust30 とかにありました.
「find . ! -perm -o=r -exec chmod o+r {} \;」で修正します
*メモ
rsyncでダウンロードするdownload_pdb_mmcif.shですが、自分のサイトから実行する際に下記のように言われる時がある
rsync: failed to connect to ftp.pdbj.org (133.1.158.161): Connection timed out (110)
rsync error: error in socket IO (code 10) at clientserver.c(125) [Receiver=3.1.2]これはPROXYの設定で回避可能かもしれません。
「export RSYNC_PROXY=<proxyサーバ>:<port>」と設定してください.