データフレーム からリサンプリング (R)

library(dplyr) sample_n(df, 100)などとすればいい。 デフォルトでは、replace=FALSEになっている

二項分布まわりのまとめ1「ポアソン分布の導出」

このまま負の二項分布、ベータ二項分布まではまとめる予定。二項分布は以下の式 nが十分に大きく、pが十分に小さい場合を考える。 ここで とすることで ポアソン分布 を導出する。ネイピア数があるのでたぶんこんな感じなんでしょう。k!やλを早めに集めて np…

Rで日付->数値の変換

時系列のデータを扱うとき、 "7/1/2018 3:33:00 AM"みたいなデータから、 "1530383580"のように一つの数字に変換したい時がある。そのためには、Rならas.POSIXct()を使えば良い。 以下参照。 https://stackoverflow.com/questions/8215404/change-from-date-…

管理者権限なしでR-3.4.0 + autoconf-2.6.9をインストール

基本的には以下参照。http://labo.utsubo.tokyo/2017/01/30/r%E3%82%92%E3%82%BD%E3%83%BC%E3%82%B9%E3%82%B3%E3%83%BC%E3%83%89%E3%81%8B%E3%82%89%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB/これで大丈夫と見せかけて、Bioconductorなどを …

CX_reportからCGmapへの変換

みんな大好きかつ、引くほど遅いmethylation extractorが素敵なBismark。 https://www.bioinformatics.babraham.ac.uk/projects/bismark/(遅いのがいやならmethylpyか自分で書けばよい https://github.com/yupenghe/methylpy)CX_report.txtと名前のついた出…

JBrowseでトラックを追加する

JBrowse · A fast, embeddable genome browser built with HTML5 and JavaScriptはApacheベースで割と簡単にインストールでき、比較的サクサク動くので使いやすい。が、インストールするときにデータを置く位置をデフォルトから変えると、結構面倒臭い。 さ…

LinuxでPDFを見る

デフォルトで入っている、Evinceを使えばよい。

Fedora25でhttpdを動かそうとしたらFirewallでちょっと躓いた

firewall-configで設定してしまうのが楽。FedoraWorkstationのserviceでhttp/httpsを起動。 publicのportsに、80/tcpを追加。systemctl enable httpd.service systemctl start httpd.serviceで問題なくアクセスできる。

Jittering plotを用いたデータの可視化

例として、以下のような箱ひげ図、Violin plotがあったとする。 par(mfrow=c(1,3)) boxplot(x) boxplot(x,notch=TRUE) vioplot(x,col=0) すぐ気付くことではあるが、普通の箱ひげ図だと 中央から四分位点までの広がりが大き過ぎる。 分布が単峰性かどうかな…

MacOS X Sierraのssh、鍵が登録されない、への対処

というか、以下https://h2ham.net/macos-sierra-use-keychain

Fedora25 for workstationにMACS2を入れるまで

lpmなどが使いたかったので、gccが古いCentOS6を捨てて、CentOS7に目もくれず、なぜかFedora25を使い始めた。モダン、かつ人柱感がすごい。。。 あと、ASRockのX58 extreme 3は、 たぶん、SSDやUSBメモリからはOSをブートできない。 BIOSをアップデートして…

lsあれこれ

lsは本当によく使う。slじゃない。 ls -l #様々な属性も含めて見える ls -a #隠しファイルも見える ls -R #再帰的な検索 ls -ld -- */ #ディレクトリだけ見るtreeも使える。 tree -d -L 2

Rのアンインストール

homebrew使ってると忘れがちだが、 パッケージからインストールしたRをアンインストールするには 以下のようにする。 もしかしたら、最新版を使いたかったのかも知れない。 rm -rf /Library/Frameworks/R.framework /Applications/R.app \ /usr/bin/R /usr/b…

md5sumの確認

非常に基本的なことなのだけど md5値だけを与えられたとき、タブ区切りなどにして躓いたので。 $ md5sum -c md5sum_filename.txtこのとき、md5sum値とファイル名の間は"\ \ "で区切られている。 (半角スペース2つ)ちなみにmd5sumを使う環境はRedhat系を前提…

Rのデータフレーム操作について

1)データフレームの一列を分割して新たな列とするstrsplit()でやってみる tmp <- matrix(unlist(strsplit(as.character(mydata$foo), ":")), ncol=2, byrow=TRUE) mydata$bar <- tmp[,1]2)複数のvectorからデータフレームを作るdata.frame()を使う df <- dat…

コマンドラインでのblastnの使い方

BLASTは塩基配列やアミノ酸配列のローカルアラインメントを探すソフトウェア。 https://blast.ncbi.nlm.nih.gov/Blast.cgi特に、Primer-BLASTはとても便利。意外と使っている人が少ないけれど。 内部的にはPrimer3が動いているらしい。 https://www.ncbi.nlm…

Perlの配列で連結リストのようなことがしたい

Perlの配列から特定の要素を削除する。基本的にはdeleteを使えば良い。 http://perldoc.perl.org/functions/delete.htmlなのだが、これでは特定の要素がundefになっただけで 同じ番号に次のデータが入る訳ではない。 要は、必要なのはリスト構造である。 htt…

コマンドラインで外付けHDDをマウント/アンマウント

認識されているかをチェック # /sbin/fdisk -l認識されていたら、予め/mnt/などに作ったディレクトリにマウント mount /dev/sdc1 /mnt/data取り外すときも簡単 umount /mnt/dataMacでフォーマットされたHDD(hfs+)を見るときは kmod-hfsplusを入れれば良い。 …

CentOS6にMACS2を入れるまで (仮)

MACS2はChIP-seqのデータ解析用のソフトウェア。python2.7で動く。 とりあえずこれで解析しておけばいいかという定番ソフト。http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed&cmd=search&term=18798982%5Bpmid%5Dしかし、CentOS6のデフォルト(システム)…

ゼロ埋め

データの処理の際にとりあえず全てのデータにIDを振りたい事がたまにある。たまにある、ということはその都度忘れるということなので記録する。 $a = 1; $b = sprintf("%03d",$a);

いろいろと試行中

遊びも含め、プログラムやデータ解析の記録を 後で見直すのに適した形式でとっておきたい。現在はmiで日付を打ちながらメモを取っている。 単純なテキストファイルなので 適当なディレクトリに放り込んでおいて grep foo ~/bar/* という検索でも意外となんと…