遺伝子検査とライフスタイルの行動変容に関するSystematic Review

遺伝子検査サービスを行動変容理論と絡めた現状唯一?のSystematic Reviewだったのでサマリながら理解します。 (query:"behaviour change" AND "personalization") 論文を読む目的 行動変容理論を組み合わせた介入に関して雰囲気掴みたい 遺伝子検査を介…

分数多項式を使用した分析:重症患者における初期乳酸および正常化時間とハザードとの関連

実務において、非線形な関係性を説明性の担保できる統計的手法でモデリングしたい状況となっております。David W. Hosmerの本において、分数多項式解析が使用されていたのでその実用例を調査します。 論文を読む目的 分数多項式を使用したモデル構築フローを…

分析・開発環境構築(Windows編)

かなり時間が空いてしまった。ブログを継続するのはなんと難しいことか。 最近購入したデスクトップPCに環境構築する機会があったので、kimotonの分析・開発環境をここにまとめておきます。 WSL2のインストール 今やWindows使いの開発環境はWSL2一択です。Vi…

血液由来DNAと唾液由来DNAのWGSサンプルの品質評価

巷ではやり始めている遺伝子検査キット。このサービスの大半は唾液を送って解析しますよね。唾液からDNAが取れるのはなぜかというと、白血球が大量に含まれているためだそうです(下記参照)。 遺伝子検査の試料として、なぜ唾液が使えるのか。一般的な試料…

PackageCompiler.jl を使った初回実行高速化

Juliaは初回ロード時にJIT(Just In Time)コンパイルを行っているため、巨大なパッケージをロードする場合、実行に時間がかかってしまいます。2回目以降の実行ではコンパイル済みなのでC並の速度が出ますが、ファイルを実行してデバッグするようなスタイル…

Rosalindを解く - フィボナッチ数列

Rosalindの紹介はこちらから。 www.kimoton.com 本日は自然界でも見られる数列、フィボナッチ数列についての実装を見ていきます。 rosalind.info 生物学的知識のおさらい 参考:相補性 (分子生物学) - Wikipedia 中世で最も才能があったと評価されるイタリア…

生存時間データへのDeep Learningの適用 - DeepSurv

生存時間データの分析に関してちょこちょこ取り上げていますが、今回はそんな生存時間データにDeep Learningを適用してみた論文、DeepSurv論文を読んでまとめてみました。 bmcmedresmethodol.biomedcentral.com 1分で理解するDeepSurv Cox比例ハザードモデル…

Rosalindを解く - DNA逆相補鎖変換

Rosalindの紹介はこちらから。 www.kimoton.com 本日は基礎中の基礎第3弾、DNA配列を逆相補鎖に変換するコードを書いていきたいと思います。 rosalind.info 生物学的知識のおさらい 参考:相補性 (分子生物学) - Wikipedia 核酸の一次構造は、核酸ポリマーの…

Rosalindを解く - DNAからRNAへの転写

Rosalindの紹介はこちらから。 本日は基礎中の基礎第2弾、DNA配列をRNA配列に転写するコードを書いていきたいと思います。 生物学的知識のおさらい 参考:リボ核酸 - Wikipedia 前回のおさらいでは、DNAは、アデニン(A)、シトシン(C)、グアニン(G)、お…

Rosalindを解く - DNA塩基数のカウント

Rosalindの紹介はこちらから。 本日は基礎中の基礎、DNA塩基数を数えるコードを書いていきたいと思います。 rosalind.info 生物学的知識のおさらい 参考:クロマチン - Wikipedia すべての生物を構成する細胞は、生命の構成要素であると考えられています。 …

60以上の言語が使用可能なブラウザ実行型IDE - Repl.it

IDE

ブラウザ実行型の環境、便利ですよね。 フロントエンドに特化したものだとCodePenなんかが有名ですが、 その他の言語でも同様にブラウザ実行できる実行環境があると教育用や共有の際に便利かと思います。 今回紹介するRepl.itは、リアルタイム編集機能が付い…

Matplotlibで日本語を使用する方法

日本語表示できない問題 Matplotlibでは、日本語を扱えるフォントが指定されていない場合に日本語を含んだプロットを出力すると、文字化け(◻︎)が表示されてしまいます。 plt.figure() plt.title("てすと") 日本語フォントをダウンロード 日本語を表示する…

バイオインフォマティクスの競技プログラミング!? Rosalindの紹介

以前の記事ではざっくり無料で学べるバイオインフォマティクス関連コンテンツに関してご紹介しました。 www.kimoton.com その中でも特にオススメなのが今回紹介するRosalindです。 競技プログラミング!?と書きましたが、形式が競プロ(課題を解き答えをsub…

Galaxy - GUIベースのワークフローシステム

Galaxyとは Galaxyは、プログラミングに長けていないユーザーでもバイオインフォマティクス解析のパイプラインを構築できるように作られたOSS(Academic Free License)です。世界中のユーザーから構成されるコミュニティによって維持されており、ヘルプペー…

Courseraを無料で受ける手順を紹介(修了証なし)

先日Courseraを紹介しましたが、courseraのコースはフリーではないのでは?とコメントを頂きました。 修了証付きの専門講座に関してはご指摘の通り、有料となっています。一方で、単一のコースを閲覧する分には無料で受けることができるので、その手順をご紹…

フリーで学べる!バイオインフォマティクス系教材7選!

最近バイオインフォマティクスを学びたいという方によく巡り合う気がします。 私kimoton、バイオインフォマティクスと名の付く書籍は多数読み漁ってまいりました。そんな経験を活かし、今回は無料かつオンライン上で利用できるコンテンツに絞ってご紹介させ…

個人向けDNA検査サービス - 注意点と有用サイト

つい数年前までは、「DNA検査」と言うと父子鑑定を思い浮かべる方がほとんどでしたが、最近では日本でもDeNAのMyCodeやGenesis HealthcareのGeneLife、高橋祥子社長で有名なGene Questなど、様々な個人向け遺伝子検査サービスが出てきており、その認識が変わ…

生存時間解析 - Cox比例ハザードモデル

ここまでで紹介してきた生存関数の推定やハザード関数の推定、ログランク検定といったノンパラメトリックな手法は、一標本の生存時間データ解析、二群間の比較に有用な方法になります。 一方で、実際の医学研究では、個々の被験者について、生存・死亡といっ…

pythonでバイオインフォマティクス - VCFファイルを扱う

GATKやSAMtoolsなどの変異解析ツールを実行した際に、含まれていた一塩基変異(SNP)、挿入(Insert)、欠失(Deletion)等の情報はVCFファイルというフォーマットで出力されます。 VCFファイルのフォーマットに関しては、GATKの説明ページを参照してくださ…

Pythonでバイオインフォマティクス - BAM/SAMファイルを扱う

インストール手順は大抵conda かpipで可能なので、これらをいちいち紹介しても仕方ない気がしてきました。今回からインストール部分は省いてご紹介します。 前回の記事ではアライメント情報を格納するためのフォーマット、BAM/SAMファイルをご紹介しました。…

BAM/SAMファイル - アライメント情報を格納するためのフォーマット

通常シーケンサからの配列データ(FASTQファイルなど)を取得した後、アライメントツールを使用してリファレンスゲノムに対して各リード配列をマッピングすることになります。そんなアライメントしたリードの情報を格納するためのデータフォーマットが、本日…

Pythonでバイオインフォマティクス - FASTQファイルを扱う

生存時間分析シリーズが立て続いておりましたが、今回は久しぶりにバイオインフォマティクス関連の記事になります。 以前の記事でも紹介したBiopythonを用いて、簡単なデータの可視化を行ってみます。 www.kimoton.com Biopythonのインストール Biopythonの…

【第3回】ゼロから始めるゲノム解析 補足説明と次回予告

先日から隔週で勉強会を開催しています。 bioalgorithms.connpass.com 前回使用した資料は下記で公開しているので是非参考にしてみてください。 第二章のR基礎までは基礎的な内容がほとんどであったため、問題なく理解できた方が多いかと思いますが、 前回の…

生存時間分析 ハザード関数の推定

下記の定義で与えられるハザード関数(単にハザードともいう)は、各時点における瞬間的な死亡のリスクや危険度を表すために使われます。 $$ h(t)=\lim_{\delta t \to 0}\frac{P(t\leq T

Windows Terminalのすゝめ

かなり前の記事ですが、この記事で紹介したように、これまでターミナルにはHyper.jsを使っていました。 www.kimoton.com Hyper.jsは気に入っていたのですが、electron製なこともあってか若干動作が不安定なところが玉に瑕でした。 hyper.jsよく固まるんだけ…

生存時間分析 ログランク検定

2群以上のデータを比較する際に、最も簡単な方法として2つの生存関数を同じ軸の上にプロットすることが挙げられます。 from matplotlib import pyplot as plt from lifelines.datasets import load_dd from lifelines import KaplanMeierFitter data = load_…

生存時間分析 生存関数の標準誤差(Greenwoodの公式)

前回の記事では様々な定義による生存関数を見ていきました。 今回はそんな生存関数について、重要な統計量である標準偏差を算出する方法について学んでいきます。 標準誤差を推定することで信頼区間を形成したり、種々の仮説検定に用いることができます。 前…

生存時間分析 様々な生存関数とlifelinesを使った算出

前回は生存関数とハザード関数の関係性について紹介しました。 www.kimoton.com 生存関数の推定には、確率分布を仮定しない(ノンパラメトリックな)推定法を用います。 これらについて定義を見直し、lifelinesを使ってカプラン・マイヤー推定量を算出・プロ…

生存時間分析 生存関数とハザード関数の関係

生存時間解析とは 生存時間解析とは、明確な地点から特定のイベントもしくはエンドポイントまでの時系列データ(Time to event型のデータ)に対する解析を示す用語です。 応答変数に関しては文字通りの生存時間のみならず、心理学実験における課題完了までの…

ゲノム解析の勉強会を始めたよ

ご無沙汰しております。kimotonです。 最近、前の会社の先輩と「ゼロから始めるゲノム解析」という勉強会を始めました。 bioalgorithms.connpass.com なんとなくツイートしたこのツイートがプチバズったことがきっかけです。 Rでバイオインフォの勉強したい…