アセンブリの良し悪しの指標:N50、L50、NG50

出会い

次世代シーケンサーアセンブル結果を示す指標として、N50というものがあることを、つい最近知った。まずい。

以下のように使われる。

PacBio(RSII)にBioNano社が開発したIrys(DNA上の特定の配列に蛍光標識をしてスキャナーで蛍光を読み取る)によるデータを組み合わせることで,Oropetium thomaeumではN50 = 7.1 Mbの全ゲノムアセンブル配列を得た (Michael and VanBuren 2015)
https://www.jstage.jst.go.jp/article/jsbbr/19/1/19_19.30/_pdf

他にもL50、NG50とかあるらしい。

N50

配列長の加重平均。配列を長い順に並べて上から順に足していった時に、全体の長さの半分に達した時の配列の長さ(単位はbp)のことをN50という。得られた配列の分布を見つつ中間くらいの長さを表しているので、長い配列が多いとN50は大きくなり、逆に長い配列が少なく短い配列が大量にあるとN50は小さくなる。アセンブルの際には復元したいゲノムに少しでも近づけるよう長い配列がたくさん得られると嬉しいので、N50はアセンブルの結果の良し悪しを判断する指標となっている。

L50

配列を長い順に並べて上から順に足していった時に、全体の長さの半分に達した時の配列の長さ(単位はbp)のことをN50というが、全体の長さの半分に達するのに必要なcontigの最低数をL50という。

NG50

アセンブルで得られた配列全体の長さの代わりに、推定されるゲノム配列の長さを使って配列長の平均を計算している。アセンブラの性能を異なるゲノムサイズの生物間で比較する際にも、NG50を用いることで公平に判断することができる。ただし,ゲノムサイズに関しては実験的に求めるかK-merから推定する必要があるので、必ずしも正確かどうかは難しいところがある.

参考

[https://en.wikipedia.org/wiki/N50,L50,and_related_statistics:title]