しゅうせいちゅう

Alphafoldの実行に必要なデータベースを準備します

データベースと言ってもタンパク質配列や立体構造データです.
alphafoldのgitの中に取得用スクリプトが入ってますので、それを実行すれば整いますが、結構大きいです

これらを取得するスクリプトが同封されている.
ただそのスクリプトの実行には rsync や aris2 コマンドが必要でそれらを事前に入れておく.

[root@centos7 ~]# yum install epel-release
[root@centos7 ~]# yum --enablerepo=epel install rsync aria2

っでこれらデータを入れておく場所(ここでは「/af」)を用意して、取得用スクリプトを実行する.
*データ格納場所はSSDとかの高速なデバイスが望ましく、オリジナルのフルセットなBFDを使うなら色々合わせて 2TB の容量が必要かな. 最適化されたBFDを使うなら 1TB ほどかな

[root@centos7 ~]# /apps/alphafold/scripts/download_all_data.sh  /af
(あるいは)
[root@centos7 ~]# /apps/alphafold/scripts/download_all_data.sh  /af  reduced_dbs

*「reduced_dbs」を設けるとより早く検索できる最適化されたBFD(Big Fantastic Database)が得られる オリジナルのBFDが1.7TBの容量です。「reduced_dbs」なら最適化された600GBのBFDが得られる

*注意. 「download_all_data.sh」を途中で止めて、再度実行するとまた初めからダウンロードします. 既に取得したにも関わらす再度ダウンロードを行うので注意.

「download_all_data.sh」の中身を見ると、各データセットごとのスクリプトを連続して実行しているだけなので、
もし途中で止まったら、既にダウンロード完了したスクリプト行を無効化して続ければ幸せになるのかと.

versionが変わって従来(v2.0.0)から取得先が変更されたものもあります. v2.1.1で新に「UniProt」と「pdb_seqres」が追加された模様
mmcifとuniref90は該当スクリプトを修正して国内ミラーサイトから取得した方がいいかも.

最終的な各フォルダのサイズは下記のようになる. 今回は「reduced_dbs」を有効にしています.
「/apps/alphafold/scripts/download_all_data.sh /af reduced_dbs」として実行

[root@centos7 ~]# /apps/alphafold/scripts/download_all_data.sh /af reduced_dbs
[root@centos7 ~]# cd /af
[root@centos7 af]# du -hs ./*
64G     ./mgnify
5.3G    ./params
56G     ./pdb70
221G    ./pdb_mmcif
218M    ./pdb_seqres
17G     ./small_bfd
87G     ./uniclust30
104G    ./uniprot
63G     ./uniref90
 
[root@centos7 af]#

あとファイル所有者が 0600(r--) とかもあるので適時修正. pdb70 とか uniclust30 とかにありました.
「find . ! -perm -o=r -exec chmod o+r {} \;」で修正します

*メモ
rsyncでダウンロードするdownload_pdb_mmcif.shですが、自分のサイトから実行する際に下記のように言われる時がある

rsync: failed to connect to ftp.pdbj.org (133.1.158.161): Connection timed out (110)
rsync error: error in socket IO (code 10) at clientserver.c(125) [Receiver=3.1.2]

これはPROXYの設定で回避可能かもしれません。
「export RSYNC_PROXY=<proxyサーバ>:<port>」と設定してください.

最新の60件
2026-03-15 2026-03-14 2026-03-13 2026-03-11 2026-03-07 2026-03-06 2026-03-04 2026-03-02 2026-03-01 2026-02-26 2026-02-24 2026-02-21 2026-02-18 2026-02-17 2026-02-16 2026-02-11 2026-02-09 2026-02-07 2026-02-06 2026-02-03 2026-02-02 2026-02-01 2026-01-31 2026-01-26 2026-01-24 2026-01-18 2026-01-17 2026-01-12 2026-01-10 2026-01-09 2026-01-08 2026-01-04 2025-12-28 2025-12-27 2025-12-12

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2022-12-17 (土) 20:13:05