データ解析をする前の準備(アプリケーション導入・パソコンの設定)
1. 初めに
私は、Mac PC(ノートパソコンと据え置き)を使って解析をしています。
このブログではMac PCであることを前提に、私がやっている方法の一部をメモ書きとして記録しておきます。
同じ研究機関の方、関係者の方は、GitHub(非公開)をご参照ください。
まだまだ初心者に毛が生えたレベルの私が、超初心者向けに向けてパソコンの最低限のセットアップ・用語説明をしています。
適切ではない表現があるかとは思いますが、ブログ閲覧者の方々が用語を調べるきっかけになれば幸いです。
(周囲に教えてくれる人がいない状態だと、問題解決のためにgoogle検索をかけるための用語がわからず、時間が浪費されていきます。このブログの読者が少しでも苦労を減らせることを祈っています。)
<Windows PCを使っている場合>
WindowsのPCを使用している方は、下記のGUIのインストールまでは実行できますが、ターミナルを使った解析ツールのインストールはできません。Windowsは、Macのようなターミナルを持っていないからです。いろんな方法がありますが、Windowsを起動したままLinux(Ubuntu)を同時に立ち上げて作業する(「仮想環境で作業する」とよく表現される)と良いと思います。Linuxの中でもBio-Linux(バイオ系の解析ツールがセットで入っているLinux(Ubuntu))を立ち上げられるようにしておくと便利です。
このブログの中では、Windows版のセットアップについては記載しません。お困りの方は、「Windows, Linux, 仮想環境, Bio-Linux, VirtualBox」などのキーワードで検索してみてください。デュアルブートと呼ばれるやり方もありますが、お勧めしません。OSの更新後にOSの切り替えがうまくいかなくなったり、最悪の場合はPCを初期化しなければならなかったりと、苦労が多いようです。
2. 解析用パソコンの最低限のインストール(Mac PC、GUI)
全てフリーソフトですので、インストールしておくと便利です。
PCの内部ストレージの残りが少ない人や、面倒な人は、R、IGVだけインストールして、他はどうしても必要になってからインストールすると良いでしょう。
他の大学の先生が作っているブログなどで、もっと詳しく、もっと多数のフリーソフトが紹介されていますので、もっと知りたい方はホームページやブログを検索してみてください。
※ GUI・・・・画面に表示されたメニューやボタンをマウスカーソルでクリックして操作できるアプリケーションのこと。パソコンやスマートフォンでよく使っているアプリはGUIです。
<インストールしておくもの(GUIのみ)>
・R
統計学的な作図をする際によく使われているツール。下記のR Studioもあるが少しコードの書き方が異なる。一般的によくネット上に掲載されているコードは、Rのためのコードが多い。
・R Studio
上記のRが改良されたもの。初心者でも作図がしやすいらしい。(私はまだあまり使いこなせません。上記のRがあれば最低限のことはできます。)
・IGV
自分が測定したデータについて、ゲノム上のどの位置のことを指しているのかを可視化できる。
・Atom
一部の開けない拡張子のファイルの中身を閲覧できる。
入れなくてもいいかもしれない。
・Macs Fan Control
PCのスペックが低い時はあっても良い。PCのファンの回転数を手動で変更できるためPCが熱くなりにくくなる。
<あったら便利なもの(GUI)>
・Ape
DNA work用のソフト。Plasmid DNA, 遺伝子のORF配列をラベルしてデータを保存しておくために使用している。プライマー設計、シーケンス解析結果の波形グラフの閲覧、制限酵素サイトの検索、Plasmidマップの作成。
・ImageJ
画像の解析用(明るさ・コントラスト調整・面積定量など)。ウエスタンブロッティングのバンドの濃さの定量、
・インターネットブラウザ(Safari以外)
MacにはデフォルトでSafariが入っているが、それ以外のブラウザも入れておきましょう。インターネットブラウザの種類によっては、Safariでうまく開くことができない時に役立つでしょう。
私はGoogleChromeとFirefoxを使っています。
・Insomnia X
ノートPCの画面の蓋を閉じてもスリープ状態にならないため、時間のかかる処理を開始してしまっても安心です。インストール後に再起動が必要なので、必要になったタイミングで焦ってインストールしても使えません。
・Toy Viewer
仕事のマニュアル作成やブログ作成時にスクリーンショットを使うと思いますが、ユーザー名やサンプル名などを伏せておきたい時もあるでしょう。このアプリでスクリーンショット画像を開いて、部分的にモザイクを入れることができるため、とても便利です。
3. PCの作業環境を整える(表示・設定の変更)
PCでデータ解析をするにあたって、PCの環境設定を下記のように変更しています。
長時間PCで作業しない人は、やらなくても良いと思います。
<Dockにアイコンを表示させておきたいもの>
表示方法:https://pc-karuma.net/mac-dock-icon/
※ Dock・・・MacのPCを起動・ログインしてすぐに表示されている画面の下に表示されているアプリケーションアイコンの表示スペースのこと。よく使うアプリケーションはDockに登録しておきましょう。
・テキストエディット
R、ターミナルに入力する予定のコードをメモするために使用。テキストファイル以外にも様々な形式のファイルで保存できるため便利。
・ターミナル
一般的に、UNIXで解析、LInuxで解析、などと書かれているウェブページに掲載されているコードは、Macのターミナルに入力して実行できます。(一部のLinuxのコードはそのまま使えないのですが、基本的には使えるそうです。)
ターミナルを使って、PC本体でデータ解析を実施する際に、PCへの負荷がどの程度かかっているのかを可視化できます。
CPUについて
アイドル状態になっている(使われていない)CPUが少ないと、CPU不足で処理が遅いとわかります。CPUが小さくでも処理が遅くなるだけで、処理の実行には支障がないと言われています。
メモリについて
使用済みメモリが多いと、PCの処理限界に近いことがわかります。メモリ容量が不足するとターミナルやアプリケーションが動かずに強制終了するケースがあります。ゲノムのマッピング処理などはとても大きいサイズのファイルを扱うため、ノートパソコンではメモリ容量不足で解析ができないことがほとんどです。マッピングにはGalaxyなどのインターネット上のツールを使いましょう。インターネット上のツールにデータをアップロードせずに、手元のパソコンでデータ解析を全て実行したい場合は、メモリ容量の大きいパソコンを購入しましょう。
<メモリ不足の原因>
・ノートPCであるため、元のメモリ容量が小さい。
メモリ容量の確認方法:https://pc-karuma.net/mac-check-memory-usage/
・処理に使用するデータのサイズが大きい。
・他のアプリケーションを立ち上げたまま作業をしている。(インターネットブラウザを複数立ち上げたまま。Excel, Wordを完全に終了させていない。)
次世代シーケンスデータの解析時に必要なPCのスペックについては、下記のリンクの書籍(p12~19)を参考にすると良いです。
PCのスペックについて解説しているwebサイトがあまりみつかりませんでした。
こちらの書籍が一番わかりやすく、各解析手法に対してどの程度のスペックが必要なのかが表形式で記載してあります。
https://www.amazon.co.jp/次世代シークエンサーDRY解析教本-清水厚志/dp/478090983X
<各種環境設定>
・テキストエディットの環境設定
コードをメモしている時に、予想変換機能で頭文字が大文字に自動補正されてしまったり、”--”と入力したいのに、1つの大きなハイフンに自動補正されることがありますが、自動補正された直後にcommand + zの同時押しで元の表示に戻ります。毎回気をつけて直すのは面倒なので、テキストエディットの設定を変更しておきましょう。
参考サイト:https://rcmdnk.com/blog/2018/05/16/computer-mac/
1. テキストエディットを立ち上げる
2. 画面の一番上のメニューバー上の「テキストエディット」をクリック
3. 「環境設定」をクリック
4. 下記の項目のチェックを外す
スマート引用符
スペルを自動的に修正
上記の設定で解決されない場合は、macのシステム環境設定を変更しましょう。
1. 画面左上のメニューバー上のアップルマークをクリック
2. システム環境設定をクリック
3. キーボードをクリック
4. ユーザー辞書のタブをクリック
5. 下記のチェックを全て外す
(専門用語の入力時にスペルの自動変換機能が邪魔になる時があるため、チェックを外しておく。一番下の項目のチェックを外すと、”--“が入力できるようになる。)
スリープモードの廃止
長時間かかる処理を開始した際に、処理の途中でPCがスリープしてしまい、作業が進んでいないことがある。
下記のように設定を変更して、スリープモードにならないように設定を変更する。
・ディスプレイを常時オンにする
1. 画面左上のメニューバー上のアップルマークをクリック
2. システム環境設定をクリック
3. バッテリーをクリック
4. 電源アダプタのタブをクリック
5. 鍵のマークをクリックして、パスワード(PC起動時のユーザーログインパスワード)を入力
6. バー表示のカーソルを一番右に合わせると、ディスプレイをオフにしない設定になる
7. バッテリーのタブをクリックし、上記の5~6のように設定を変更
8. 鍵のマークをクリックして、設定の変更を完了する
・スクリーンセーバーの停止
1. 画面左上のメニューバー上のアップルマークをクリック
2. システム環境設定をクリック
3. デスクトップとスクリーンセーバをクリック
4. スクリーンセーバのタブをクリック
5. 左下に表示されている「開始までの時間」を「開始しない」へ変更
画面の表示方法の変更(長時間作業用)
データ解析に限らず、PCを長時間使う方は、下記のようにPCの設定を変更しておくと、目が疲れにくくなるため、おすすめです。
・ダークモード表示への変更
1. 画面左上のメニューバー上のアップルマークをクリック
2. システム環境設定をクリック
3. 一般をクリック
4. 外観モードをダークに変更する
・輝度の自動調節
1. 画面左上のメニューバー上のアップルマークをクリック
2. システム環境設定をクリック
3. ディスプレイをクリック
4. ディスプレイのタブをクリック
5. 輝度の自動調節、True Toneのチェックを入れる
・ナイトシフトモードの使用
(デフォルトでは、夜間にナイトシフトモードに切り替わる設定になっています。日中にも使用したい場合は下記のように設定を変更してください。)
1. 画面左上のメニューバー上のアップルマークをクリック
2. システム環境設定をクリック
3. ディスプレイをクリック
4. Night Shiftのタブをクリック
5. スケジュールをカスタムへ変更
6. 5:00~24:00など、自分がよく作業をしている時間帯に変更
→ 画面が少し黄色がかって見える(ブルーライトカットされている)
4. その他の小技
・部分的なスクリーンショット
command + Shift + 4 同時押しで、スクリーンショットしたいエリアを選択できるモードに切り替わります。エリアを選択し終わると、自動的にスクリーンショットがデスクトップ上に保存されます。
・バックスラッシュ“\”の入力
option + ¥
<よく使われているショートカットキー>
・コピー
command + c
・ペースト
command + v
・1つ前の操作に戻る
command + z
・全選択
command + a
・内部検索
command + f