美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-08-13 04:28作者:小樂
新一代測序,也稱為下一代測序(NGS),是一系列高通量測序技術(shù)的統(tǒng)稱,可以在短時(shí)間內(nèi)產(chǎn)生數(shù)十萬至數(shù)十億的短序列讀數(shù)。 NGS技術(shù)包括Illumina測序、Ion Torrent測序、Roche 454測序(現(xiàn)已停產(chǎn))和Pacific Biosciences(PacBio)單分子實(shí)時(shí)測序(SMRT)等。這里我重點(diǎn)介紹一下Illumina測序的數(shù)據(jù)分析方法和原理,因?yàn)樗悄壳笆褂米顝V泛的NGS平臺(tái)。
Illumina測序原理:
**文庫準(zhǔn)備:**首先將待測序的DNA樣本打碎成小片段,并在兩端添加特定的接頭序列。這些帶有接頭的DNA 片段稱為文庫。 **橋式擴(kuò)增:**文庫中的DNA片段通過接頭固定在流動(dòng)池表面,然后在流動(dòng)池中擴(kuò)增形成DNA簇。每個(gè)DNA 簇都由同一DNA 分子的多個(gè)副本組成。 **邊合成邊測序(SBS):**使用可逆終止的熒光核苷酸,一次只允許將一種核苷酸添加到新合成的DNA 鏈中。每個(gè)核苷酸都經(jīng)過獨(dú)特的熒光標(biāo)記,并且3' 末端經(jīng)過化學(xué)修飾以防止進(jìn)一步的鏈延伸。 **圖像采集:** 通過用激光激發(fā)熒光標(biāo)記,相機(jī)捕獲每個(gè)位置的熒光信號(hào),以確定添加的核苷酸類型。 **洗脫和下一個(gè)循環(huán):**洗掉未結(jié)合的核苷酸和熒光標(biāo)記,去除3'端的封閉基團(tuán),并準(zhǔn)備添加下一個(gè)核苷酸。 **序列生成:**重復(fù)此過程,直到獲得足夠長的序列讀數(shù)。 Illumina測序的數(shù)據(jù)分析方法:
**數(shù)據(jù)預(yù)處理:**包括去除adapter序列、去除低質(zhì)量reads、去除污染序列等。 **序列比對(Alignment):**將測序得到的短序列reads映射到參考基因組上,以確定其位置。常用的比對工具包括BWA、Bowtie、TopHat等。 **變異檢測:**比對后,分析軟件尋找序列中的變異位點(diǎn),如單核苷酸多態(tài)性(SNP)、插入/缺失(indels)、和結(jié)構(gòu)變體(SV)。常用的突變檢測工具包括GATK、SAMtools和VarScan。 **注意:**將檢測到的變異位點(diǎn)與數(shù)據(jù)庫中的信息進(jìn)行比較,以預(yù)測其功能影響和潛在的生物學(xué)意義。常用的注釋工具包括ANNOVAR和Ensembl VEP等。 **下游分析:**根據(jù)研究目的,還可能包括轉(zhuǎn)錄組分析、表觀遺傳分析、基因融合檢測、非編碼RNA分析等。 **結(jié)果可視化:**使用各種生物信息學(xué)工具和軟件包,如IGV、Circos、GenomeBrowse等,可視化和解釋分析結(jié)果。 NGS 數(shù)據(jù)分析是一個(gè)復(fù)雜的過程,涉及大量計(jì)算和統(tǒng)計(jì)分析。隨著技術(shù)的進(jìn)步和生物信息學(xué)工具的發(fā)展,NGS 數(shù)據(jù)分析方法不斷發(fā)展,以提高準(zhǔn)確性、效率和可重復(fù)性。以下是典型的NGS數(shù)據(jù)分析流程,以全基因組測序(WGS)為例:
數(shù)據(jù)采集:從測序儀獲取原始數(shù)據(jù),通常是FASTQ格式的文件,其中包含序列的基礎(chǔ)信息及其質(zhì)量評分。數(shù)據(jù)預(yù)處理:**質(zhì)量控制:**使用FastQC等工具檢查序列質(zhì)量和測序錯(cuò)誤。 **Adapter Trimming:**使用Cutadapt或Trimmomatic等工具去除序列兩端的Adapter序列。 **低質(zhì)量讀數(shù)修剪:**刪除質(zhì)量分?jǐn)?shù)低于閾值的堿基或整個(gè)讀數(shù)。 **污染物去除:**識(shí)別并去除不屬于目標(biāo)物種的序列,例如細(xì)菌、真菌或人類DNA。序列比對(Alignment):使用比對工具(例如BWA、Bowtie2或SOAPaligner)將預(yù)處理的reads映射到參考基因組。生成的比對結(jié)果通常存儲(chǔ)在BAM或SAM格式文件中。比對后處理: **排序:** 使用Samtools 等工具按染色體位置對比對結(jié)果進(jìn)行排序。 **重復(fù)刪除:**在PCR 或擴(kuò)增過程中使用MarkDuplicates 等工具識(shí)別并刪除重復(fù)讀數(shù)。 **重新對齊:**使用GATK RealignerTargetCreator 和IndelRealigner 等工具進(jìn)行局部重新對齊,以提高變異檢測的準(zhǔn)確性。 **堿基質(zhì)量分?jǐn)?shù)重新校準(zhǔn)(BQSR):**使用GATK BaseRecalibrator 等工具校準(zhǔn)堿基質(zhì)量分?jǐn)?shù)以提高變異檢測的準(zhǔn)確性。 Variant Calling:使用變異檢出工具(如GATK HaplotypeCaller、FreeBayes 或VarScan)來識(shí)別基因組中的變異位點(diǎn),包括單核苷酸多態(tài)性(SNP)、插入/刪除(indels)等。生成的突變檢出結(jié)果通常會(huì)被存儲(chǔ)VCF 格式的文件。變異注釋:使用注釋工具(如ANNOVAR、VEP或SnpEff)將變異位點(diǎn)與生物學(xué)功能、疾病關(guān)聯(lián)、保護(hù)等信息關(guān)聯(lián)起來。下游分析:根據(jù)研究目的進(jìn)行具體分析,如群體遺傳分析、癌癥基因組分析、基因融合檢測、甲基化分析等。 結(jié)果可視化(Visualization):利用生物信息學(xué)工具和軟件(如IGV、Integrative Genomics Viewer、 Circos 等)來可視化和解釋分析結(jié)果。統(tǒng)計(jì)分析和生物學(xué)解釋:進(jìn)行統(tǒng)計(jì)檢驗(yàn)以確定變異的顯著性,并結(jié)合生物學(xué)知識(shí)進(jìn)行功能預(yù)測和機(jī)制解釋。報(bào)告撰寫:總結(jié)分析結(jié)果,撰寫報(bào)告,提出結(jié)論,推薦后續(xù)研究方向。整個(gè)NGS 數(shù)據(jù)分析過程可能需要幾天到幾周的時(shí)間,具體取決于數(shù)據(jù)的復(fù)雜性、分析工具的選擇以及計(jì)算資源的可用性。隨著生物信息學(xué)工具的不斷發(fā)展,該過程不斷優(yōu)化和自動(dòng)化,以提高分析的效率和準(zhǔn)確性。在下一代測序(NGS)數(shù)據(jù)分析過程中,廣泛使用了許多生物信息學(xué)工具。這些工具涵蓋了從數(shù)據(jù)預(yù)處理到高級(jí)分析的每個(gè)階段。以下是一些常用工具的概述:
數(shù)據(jù)預(yù)處理工具:FastQC:用于檢查原始測序數(shù)據(jù)的質(zhì)量。 TrimGalore 或Trimmomatic:用于去除接頭序列并過濾低質(zhì)量的讀數(shù)。 Skewer:專門用于從Illumina 測序數(shù)據(jù)中刪除接頭。序列比對工具:BWA(Burrows-Wheeler Aligner):用于將短讀段映射到參考基因組。 Bowtie2:另一種流行的短讀對齊工具。 STAR:特別適合轉(zhuǎn)錄組測序數(shù)據(jù)的比較。 SOAPaligner/soap2:用于短讀段與大基因組的高效比對。對比后處理工具: Samtools:用于處理SAM/BAM格式的對比文件,包括排序、索引和查看。 Picard Tools:由Broad Institute 開發(fā),用于重復(fù)數(shù)據(jù)刪除、重新排序和其他對齊后處理任務(wù)。 GATK(基因組分析工具包):提供一系列用于高質(zhì)量變異檢測和基因分型的工具,包括重度比對和堿基質(zhì)量評分校正。變異檢測工具:GATK HaplotypeCaller:用于檢測SNP和indels。 FreeeBayes:一種靈活的變異檢測工具,適用于多種測序技術(shù)和數(shù)據(jù)類型。 VarScan:用于檢測SNP、插入缺失和拷貝數(shù)變異。 MuTect:專門用于癌癥樣本中的體細(xì)胞變異檢測。變異注釋工具:ANNOVAR:用于注釋SNP、indels和CNV的功能影響。 Ensembl VEP(變異效應(yīng)預(yù)測器):提供詳細(xì)的變異注釋,包括基因和調(diào)控元件的位置。 SnpEff:用于預(yù)測SNP 和插入缺失對基因和蛋白質(zhì)水平的影響。下游分析工具:DESeq2、edgeR 或limma:用于差異表達(dá)分析。 MACS(基于模型的ChIP-Seq 分析):用于ChIP-Seq 數(shù)據(jù)的峰調(diào)用。 HTSeq 或featureCounts:用于對對齊讀數(shù)進(jìn)行計(jì)數(shù),常用于RNA-Seq 數(shù)據(jù)。袖扣或StringTie:用于轉(zhuǎn)錄本組裝和表達(dá)定量。結(jié)果可視化工具: IGV(Integrative Genomics Viewer):用于可視化比對和變異數(shù)據(jù)。 UCSC Genome Browser:提供基因組瀏覽和注釋信息。 Circos:用于創(chuàng)建基因組數(shù)據(jù)的復(fù)雜圓形圖。統(tǒng)計(jì)分析和生物學(xué)解釋的工具: R語言:一種用于統(tǒng)計(jì)計(jì)算和圖形表示的語言,有許多用于NGS數(shù)據(jù)分析的軟件包(例如Bioconductor項(xiàng)目)。 Python:另一種流行的編程語言,具有用于數(shù)據(jù)分析的Pandas、NumPy 和BioPython 等庫。這些工具只是冰山一角,還有許多其他工具和技術(shù)可用于特定的分析需求。隨著NGS技術(shù)的不斷發(fā)展,新的工具和方法不斷涌現(xiàn)。選擇工具時(shí),您應(yīng)該考慮數(shù)據(jù)的特征、分析的目的以及您的個(gè)人經(jīng)驗(yàn)和技術(shù)堆棧。