初歩的なこと

bioinformatics解析で、最近は最終解析は専らRで行われているようだ。

Rは全く分からないわけではないけれど、別種類のデータ解析にはStata等の統計パッケージを使っていたり、bioinformatics解析は以前は専ら論文などで公表され、ソースコードやバイナリが提供されているコマンド + 自分で書いた簡単なスクリプトで事足りていたので、積極的には使ってこなかった。もう一つRはたぶん今でもsingle threadでしか計算できないので(→今はマルチスレッドを可能にするモジュールも使えるようだ)、せっかくの多コアマシンがもったいないと感じることも使わない理由の一つだった。

 

そしてRで自分的に一番分かりにくいのがオブジェクト。よくtutorialにこのようにコマンドを打っていけばほら、最終的な結果が得られるでしょう、みたいなことが書いてあり、確かにtutorialに書いてあるデータをそのまま使えばできるのだろうけれど、自分はとにかく自分の手持ちのデータをなんとかしたい。でも、こうだろうと思って自分のデータを解析していくとよく分からないエラーが出る。その場合、解析途中のデータの形が見えればどこでどのように間違っているのかが分かるのに、

 

summary(オブジェクト)

 

とかやっても、

 

オブジェクト

 

とかやっても複雑な構造のオブジェクトの場合はほとんど有用な情報が得られない。どうにももどかしいと思っていたところ、

 

str(オブジェクト)

 

とすればよいことが分かった(今頃)。でもこれでみてみると、coldataには処理対象ファイルの情報が含まれているとして、

 

library(tximeta)
se <- tximeta(coldata)
gse <- summarizeToGene(se)

 

で出てくるgseオブジェクトの構造を

 

str(gse)

 

で見るととんでもなく複雑なものであることが分かった。これは中身が一覧できないわけだ。後、すごいブラックボックス化しているなー、とも思う。