新聞中心
NEWS
生信專題
測序數據比對后處理
”
Mosdepth是一款快速計算全基因組測序覆蓋度的工具,專用于評估 BAM 或 CRAM 文件中基因組的每個堿基位置或基因組區域的深度,常用來評估單條染色體的覆蓋深度。

優勢
1、每個堿基深度的計算速度是傳統samtools depth的約2倍。
2、可計算給定窗口大小的平均每個窗口深度,非常方便后續CNV calling。
3、可計算給定區域的BND文件的每個區域的平均值。
4、在設定相應的閾值后,可以展示基因組和每個染色體的堿基分布比例。
5、可以合并相鄰堿基的量化輸出。
6、每條染色體和每條染色體指定區域內的平均深度的總結。

下載安裝
從官網直接下載編譯好的文件,修改權限即可使用。


使用
準備

計算深度

參數
● –t:設定自己需要的線程數。
● –c:設定待分析的染色體號。
● out:待輸出的文件前綴。
● sample.bam:待輸入分析的bam文件。
● –b sample.bed:待輸入的指定區域文件,當分析整個基因組時,可去掉該參數。
● –n:不逐個輸出堿基深度。如果跳過此輸出,可以顯著提升程序執行速度。建議優先使用量化或閾值的深度值進行測試。
● –f:用于CRAM文件的參考序列(fasta格式)。
●--d4:將堿基深度文件輸出為d4格式。

結果
out.mosdepth.summary.txt
該文件詳細記錄了每條染色體及整個基因組的相關信息,包括以下內容:染色體名稱、序列長度、映射的堿基數量、覆蓋深度的平均值、覆蓋深度的最小值以及最大值。這些數據能夠全面反映基因組中不同區域的測序覆蓋情況。以下是一個示例格式:

out.mosdepth.global.dist.txt
文件中包含累積分布信息,用于表示在不同覆蓋率閾值下,被覆蓋的總堿基比例。該文件包含三列數據,分別是:染色體名稱或 total(表示全基因組統計)、覆蓋深度閾值、以及達到或超過該覆蓋深度的堿基比例。以下是一個示例:

還可以使用腳本 python scripts/plot-dist.py *global.dist.txt 繪制覆蓋度分布圖。此腳本會生成一個名為 dist.html 的輸出文件,直觀展示整個基因組的覆蓋度分布情況。在運行該命令之前,請確保 scripts/plot-dist.py 腳本和覆蓋度統計文件(以 *global.dist.txt 結尾)位于正確的目錄中。生成的 dist.html 文件可在瀏覽器中打開,查看全基因組覆蓋度分布的詳細圖示。
out.per-base.bed.gz
Mosdepth支持輸出每個堿基的深度信息,即在基因組中對每個位置的覆蓋深度進行逐一記錄。這種輸出方式提供了精確的深度分布數據,適用于需要詳細覆蓋度分析的場景,例如檢測局部變異或基因熱點區域。然而,由于逐堿基深度輸出會生成大量數據,其處理和存儲需求較高,因此在需要提高運行速度時,可以通過跳過此類輸出(使用 -n 參數)來優化執行效率。
out.per-base.bed.gz.csi
該文件是一個索引文件,與壓縮的逐堿基深度文件 out.per-base.bed.gz 對應,用于加速數據的隨機訪問和查詢操作。