腫瘤突變負荷 (Tumor Mutational Burden, TMB) 對實體瘤免疫治療藥物的選擇具有重要價值。使用覆蓋數百 Kb 堿基至數 Mb 堿基的靶向測序 (大 Panel,Panel 的覆蓋范圍建議超過1 Mb) 是檢測 TMB 的主流方法,但其準確性受腫瘤體細胞突變檢測能力和 TMB 計算規則等多種因素的復雜影響[1]。
2022 年 2 月,國家衛生健康委臨檢中心公布了 2021 年“腫瘤突變負荷 (TMB) 檢測生物信息學分析流程室間質量評價預研活動結果報告”,報告顯示配對樣本和非配對樣本的 TMB 檢測合格率分別僅為 50.0% 和 14.3%。2022 年 9 月,國家衛生健康委臨床檢驗中心公布了 2022 年《全國實體腫瘤高通量測序 (大Panel) 腫瘤突變負荷檢測室間質量評價預研結果報告》,報告顯示參評實驗室配對樣本的 TMB 檢測整體合格率為 79.2%。
體細胞突變檢測的準確性是 TMB 計算的基礎。然而,最近一次參評實驗室間的準確性差異顯著:樣本總體召回率 (Recall) 從 0.460 到 0.996 不等;總體精確率 (Precision) 從 0.082 到 0.982 不等;總體 F1 score 從 0.149 到 0.988 不等。參評實驗室使用的體細胞突變分析軟件多達數 10 款,但有 48.28% 的實驗室選取了 GATK Mutect/Mutect2。
作為一款免費并持續快速更新的 NGS 變異分析軟件,GATK (Genome Analysis Toolkit) 深得眾多研究者的推崇,每年基于 GATK 發表的文章和研究診斷不計其數。但 GATK 不同版本的迭代導致一個潛在的問題,使用不同版本的 GATK 分析同一份數據時,得到的變異差異到底有多大?
本文中,我們嘗試使用多個版本的 GATK 軟件,分析 TMB 標準品基于全外顯子捕獲測序的數據,探討不同版本的 GATK 分析軟件對體細胞突變檢測和 TMB 值的影響。
GATK 最初于 2010 年發布,主要用于尋找人類基因組和外顯子的 SNP 和 Indel。后經過多個版本迭代和功能豐富,GATK 逐步成為生信領域的突變檢測行業翹楚。2017 年,GATK 和 Intel 合作推出了經典版本 GATK3.8。2018 年 GATK4 推出,核心算法更新并增加了拷貝數變異、宏基因組、短突變、結構變異分析等新功能。GATK4 僅在 2018 年就更新 20 多次,并仍以每年約 6 個 release 的趨勢不斷推陳出新[2]。
測序數據均基于納昂達全外顯子靶向捕獲方案,測序深度 > 500x,測序方式均為 MGI PE150。
我們選用了上述 4 個不同版本的 GATK,分析 6 對 TMB 標準品的體細胞突變,并使用如下過濾標準計算 TMB 值:變異位點的總體測序深度 ≥ 10;支持變異位點的深度 ≥ 2;變異頻率 (VAF) ≥ 5%;人群變異數據庫中的頻率 ≤ 1% 或不明確;去除同義突變。
GATK3.8 和 GATK4 中的分析工具略有不同,導致分析時長存在巨大差異。在突變檢測前的優化步驟中,GATK3.8 需要使用外部 picard (Version 2.18.26-SNAPSHOT) 軟件合并分析數;在處理已比對 bam 文件時需要用到內置的 RealignerTargetCreator 和 IndelRealigner 工具。而 GATK4 已整合 picard 軟件;并直接對 MarkDuplicates 后的 bam 文件進行 BQSR,不再使用 RealignerTargetCreator 和 IndelRealigner 工具。因此,GATK3.8 需要依次經過 5 個步驟:MarkDuplicates (picard)、RealignerTargetCreator、IndelRealigner、BaseRecalibrator 和 PrintReads,而 GATK4 只需要經過 3 個步驟:MarkDuplicates、BaseRecalibrator 和 ApplyBQSR。整體而言,GATK3.8 在 bam 處理步驟耗時約是 GATK4 的 5 倍,而 GATK4 的不同版本間的 bam 處理時間基本保持不變。
在突變檢測步驟的時長更是與版本密切相關。GATK3.8 中的 Mutect2 體細胞突變檢測的時長平均比 GATK4 的時長高 30 倍!此外,GATK4 Mutect2 的分析時長隨著版本更新持續降低,未來可能會進一步降低。GATK3.8 Mutect2 如此耗時,其一是未選擇多線程運行;其二是 vcf 過濾等功能均封裝在 Mutect2 中。如果改用多線程分析以及拆分染色體運行 (如 6 條染色體并行運行),GATK3.8 Mutect2 的分析時長也會顯著降低。在 GATK4 Mutect2 中,即使不用多線程,其最消耗資源計算模塊 pairHMMmore 默認為 4 線程 (本文中使用了 10 線程),整體運行速度會加快。另外,GATK4 將 vcf 過濾等步驟獨立了出來,也降低 Mutect2 工具運行時間。
不同版本 GATK 檢測出的原始體細胞突變、體細胞突變中的 PASS 突變、檢測出的 PASS 并通過 TMB 過濾條件后的突變如圖1. 所示。不同版本 GATK Mutect2 工具檢測出的原始突變差異非常大,GATK3.8 與 GATK4 兩個大版本間差異尤為明顯,這極可能是 GATK3.8 未過濾去除 germline-resource 的原因。對原始突變僅挑選 PASS 的突變位點后,不同版本 GATK 之間的突變位點差異大大縮小;當對檢測出的 PASS 突變位點經過深度、頻率、非同義突變、人群頻率過濾后,一致性與 PASS 突變位點雖然無明顯改進,但突變位點數進一步縮小,此時得到的突變數可用于計算 TMB 值。
圖1. 不同版本 GATK 檢測出的突變位點差異比較
令人欣慰的是,四個不同版本 GATK 中計算得到的 TMB 如圖2. A 所示,各版本計算出的 TMB 值均與參考值極為接近,僅有 GATK3.8 稍低一些。各版本計算的 TMB 值與標準值的線性回歸 R square 值均 > 0.98,其中三個版本 GATK4 的 R square 值均 > 0.99,這表明各個 GATK 版本計算的 TMB 與標準參考 TMB 值相關性極強 (圖2. B)。
圖2. 不同版本的GATK計算的TMB值與參考值比較
我們接著以 TMB06 樣本為例,進一步分析四個 GATK 版本計算 TMB 時納入突變的差異,重點考察各自獨有的突變 (圖3. )。GATK3.8 納入的獨有突變有 13 個,而大部分 (7 個) 都位于 germline-resource 文件中。這意味著使用 GATK3.8 Mutect2 工具時,應對檢測出的 vcf 文件額外使用 germline-resource 進行過濾。當我們通過 bam 文件查看另外三個版本 GATK 的特有突變,發現其實在所有版本 GATK 生成的 bam 文件中,這些突變位點 reads 分布是一致的,區別僅是不同版本 GATK 給出了不一致的分析結果。我們推測這可能是不同版本中 Mutect2 的算法微調的原因。
圖3. 不同版本 GATK 用于計算 TMB06 樣本 TMB 值時的突變韋恩圖
例如,GATK4.2.6.1 版本中有一獨特體細胞突變 chr15:84908940-84908941_AC>GT,其他版本 GATK 中均未檢測到該突變。但使用 IGV 軟件查看腫瘤樣本 bam 文件可以發現,其實四個版本 GATK 在該位點都觀察到 AC>GT 突變 (圖4. )。雖然突變頻率接近 60%,但是腫瘤樣本此處覆蓋深度較低 (~70x,MQ > 20);對照樣本也有此突變且頻率在 2% 左右,并且覆蓋深度達到了腫瘤樣本的 8 倍以上 (~1150x 16 倍,MQ > 20),所以這是一個較難判定真偽的突變位點。也因此,只有 GATK4.2.6.1 版本將該突變位點報出。這一突變導致編碼氨基酸由 LeuArg 變為 LeuCys (R279C),但并未影響 GOLGA6L4 基因的主要功能區域,數據庫中沒有相關報道,故該突變危險程度未知 (圖5. )。
圖4. 不同版本的 GATK 檢測出的突變差異
圖5. chr15:84908940-84908941_AC>GT 突變蛋白質注釋解釋
GATK 軟件是目前生信行業中突變位點分析的主流軟件,但是因版本更新頻繁,體細胞檢測工具 Mutect2 也處于一直更新的狀態。對研究者而言,不同版本的 GATK 的體細胞檢測是否存在差異對持續分析是至關重要的。本文通過選取 GATK 經典版 GATK3.8 和三個不同的 GATK4 版本,分析 TMB 標準品體細胞突變并計算 TMB 來進行評估。
從檢測結果來看,不同版本 Mutect2 工具原始檢測出的體細胞突變位點差距巨大,但是 PASS 的突變位點一致性相對較好。雖然對 PASS 突變位點經過過濾后計算的 TMB 值與標準品 TMB 參考值存在一定上下浮動,但是與標準 TMB 參考值的相關性極高,說明檢測同一樣本的 TMB 時,使用任意版本的 GATK 的結果是近似的。
然而,由于樣本 TMB 狀態是根據 TMB 閾值判斷,當樣本的 TMB 值介于 TMB-H 和 TMB-L 閾值上下時,不同版本的 GATK 的判斷結果可能會不一致。假定某一樣本真實 TMB 值為 10.8 mut/Mb,TMB-H 的閾值為 > 10 mut/Mb,不同版本 GATK 計算的 TMB 值可能在 9-11 mut/Mb 之間。此時盡管計算的 TMB 值與真實 TMB 值接近,根據此時閾值判斷的 TMB 狀態則會不同。這意味著 TMB 檢測時校準線建立和閾值劃分上,亟需建立相關標準。
最后,由于不同版本 GATK 特有突變極少,且大多為難判斷真偽的突變,我們建議腫瘤致病突變篩查時,當使用固定版本的 GATK 未篩選出致病驅動突變,可額外選擇不同版本 GATK 或其他突變檢測軟件作為輔助,以盡量避免假陰性分析結果。
NEXome XP Panel v1.0
NEXome XP Panel v1.0 是一款增強型擴展版全外顯子捕獲 Panel,在 NEXome Core Panel 的基礎之上,擴展了對非編碼區 ClinVar 位點、GENCODE 注釋編碼區以及免疫球蛋白和 T 細胞受體基因座的覆蓋,同時包含了全基因組 SNP 骨架、實體瘤常見基因融合相關的內含子區域、經典微衛星位點等,覆蓋人類基因組約 45.9 Mb 區域。
NEXome Plus Panel v1.0
NEXome Plus Panel v1.0 是一款增強型全外顯子捕獲 Panel,在 NEXome Core Panel 的基礎之上,增加了全基因組 SNP 骨架、實體瘤常見基因融合相關的內含子區域、經典微衛星位點等,覆蓋人類基因組約 43.3 Mb 區域。
NEXome Core Panel
NEXome Core Panel 在新版本 Refseq(109,2021)和 CCDS 數據庫的基礎上,額外精心挑選了一些數據庫之外值得關注的區域,同時基于產品延續性的考慮保留了部分新版數據庫中刪去的區域。NEXome Core Panel 包含約 40 萬條單獨合成、單獨質控的單鏈 DNA 探針,靶向 34.7Mb 基因組區域(19,613 基因)。NEXome Core Panel 作為一款核心全外顯子 Panel,可與不同的子 panel 組合搭配,滿足不同的應用需求。
關于納昂達科技
納昂達科技秉承“ Nano Trans More ”的核心理念和“靶向精準,用心服務診斷”的奮斗宗旨,致力于為科研院校、醫療機構、臨檢單位、產業公司、測序服務商等提供專業化和高質量的靶向測序產品與閉環解決方案。
納昂達科技已通過高新技術企業、江蘇省科技型中小企業和南京市精準高通量測序工程技術研究中心認定,并擁有 > 2,000 平米的高通量測序研發中心和 > 4,000 平米的GMP級別 (YY/T 0287-2017 idt ISO 13485:2016) 體外診斷試劑生產基地,建立了從市場調研、產品設計、生產制造到售后服務完整的質量管理體系。
納昂達專注于精準靶向試劑和配套自動化儀器的開發、生產、銷售和服務,目前擁有 MGI 和 Illumina 雙測序平臺多款 NadPrep文庫構建試劑盒和全套液相雜交相關產品。明星產品包括 NGS 全流程自動化工作站、腫瘤全外顯子 Panel、泛實體瘤和血液腫瘤Panel以及呼吸道病毒 Panel 等,并提供全面完善的雙平臺捕獲探針定制化服務。納昂達科技的靶向捕獲產品擁有與國際同行業媲美的高質量水準,獲得了客戶一致的信賴。
納昂達的銷售網絡覆蓋全國并已外延至海外地區。納昂達將與客戶共成長,對客戶的需求全力以赴,為全球用戶提供靶向測序解決方案和 IVD 試劑原料。
Nanodigmbio
?
電話:400 871 7699
郵箱:sales@njnad
網址:
參考文獻
[1]
[2]