四川大學華西第二醫(yī)院陳路老師團隊在《Scientific data》(6.444)在線發(fā)表了研究成果。該研究構建了小鼠的長期和短期造血干細胞(HSC)和多能祖細胞(MPP)在批量和單細胞水平上的短讀長和長讀長RNA測序數(shù)據(jù)集,數(shù)據(jù)結(jié)果證明了整合短讀長和長讀長測序可以促進已知和未注釋異構體的識別和定量。本文為不同HSC細胞類型內(nèi)轉(zhuǎn)錄多樣性和異質(zhì)性的全面分析和比較研究提供了基礎。百邁客為該研究提供了ONT三代長讀長測序服務。三代測序平臺的轉(zhuǎn)錄組研究,無需打斷,直接讀取反轉(zhuǎn)錄的全長cDNA,能夠有效的獲取高質(zhì)量的單個RNA分子的全部序列,辨別二代測序無法識別的同源異構體(isoform)、同源基因、超家族基因或等位基因表達的轉(zhuǎn)錄本。ONT三代測序其優(yōu)點有通量更高、操作過程更簡單、成本更低,主要應用在基因組測序、甲基化研究、突變鑒定(SNP檢測)三個方面。
英文名稱:Short-read and long-read RNA sequencing of mouse hematopoietic stem cells at bulk and single-cell levels
中文名稱:在批量和單細胞水平上對小鼠造血干細胞進行短讀長和長讀長RNA測序
發(fā)表雜志:Scientific data
影響因子:6.444
發(fā)表時間:2021年11月
摘 要
造血干細胞(HSC)位于分化層次的頂端。盡管HSC及其直接下游的多能祖細胞(MPP)具有完全的多向分化能力,但只有長期(LT-)HSC具有長期自我更新的能力。隨著單細胞RNA測序和譜系追蹤技術的發(fā)展,HSC群體內(nèi)的異質(zhì)性逐漸得到承認。轉(zhuǎn)錄和轉(zhuǎn)錄后的調(diào)控在控制HSC群體內(nèi)的分化和自我更新能力方面發(fā)揮著重要作用。
在這里本文報告了一個數(shù)據(jù)集,該數(shù)據(jù)集包括小鼠長期和短期HSC和MPP在批量和單細胞水平上的短讀長和長讀長RNA測序。數(shù)據(jù)結(jié)果證明了整合短讀長和長讀長測序可以促進已知和未注釋異構體的識別和定量。因此,該數(shù)據(jù)集為不同HSC細胞類型內(nèi)轉(zhuǎn)錄多樣性和異質(zhì)性的全面和比較研究提供了基礎。
背景介紹
造血始于一群自我更新的造血干細胞 (HSC),它們產(chǎn)生一系列越來越多的譜系定型祖細胞,最終產(chǎn)生各種類型的成熟血細胞。在傳統(tǒng)模型中,長期(LT)HCS分化為短期(ST) HSC,隨后分化為多能祖細胞(MPP)。雖然這三個群體都具有完全的多向分化能力,但它們逐漸失去了自我更新能力。在HSC和MPP群體中都存在異質(zhì)性,具有明顯的譜系偏差。
轉(zhuǎn)錄和轉(zhuǎn)錄后的調(diào)控在平衡造血干細胞的結(jié)構性和低水平周轉(zhuǎn)、下游分化和造血重建方面都是關鍵。在多細胞生物中,可變剪接是一種關鍵的轉(zhuǎn)錄后調(diào)控機制,可以擴大轉(zhuǎn)錄本的多樣性。越來越多的研究表明,在造血過程中,可變剪接模式是必不可少的。例如,在血液祖細胞或巨核細胞和紅細胞譜系中鑒定到的特異性可變剪接事件。研究發(fā)現(xiàn),關鍵造血調(diào)節(jié)因子(如HMGA2)的可變剪接模式影響了造血干細胞的分子鑒定。此外,異常AS是包括白血病等各種癌癥的標志物。
利用短讀長下一代測序(NGS)或長讀長測序(如PacBio和Oxford Nanopore Technologies)的RNA測序,是解讀包括血細胞生成在內(nèi)的各種生物過程中的轉(zhuǎn)錄多樣性和調(diào)控機制的強大工具。雖然NGS在表達定量方面更可靠,但是短讀長在AS事件中只能提供有限的信息。相比之下,長讀長的測序方法提供了一個獨特的機會,可以實現(xiàn)在提供全長信息的基礎上檢測可變剪接異構體。本文使用短讀長和長讀長RNA測序,在批量和單細胞水平上對小鼠HSC和MPP進行了全面的轉(zhuǎn)錄圖譜分析。
材料方法
樣本制備:8-9周的雌性成年C57BL/6 J 小鼠,從股骨和脛骨中分離骨髓細胞。首先使用小鼠造血干細胞分離試劑盒富集造血干細胞和祖細胞(HSPC)。長期(LT)和短期(ST)造血干細胞(HSC)和多能祖細胞(MPP)根據(jù)其表面標志物進行分選。對于單細胞RNA測序(scRNA-seq),將細胞單獨分選到含有裂解緩沖液的8條PCR管中。同時對于批量RNA-seq,分選100個細胞(P100)到一個PCR管中作為生物學重復。
實驗方法:按照Smart-seq2實驗流程構建cDNA 文庫,基于Illumina平臺、Pacbio平臺和Oxford Nanopore Technologies(ONT)(百邁客協(xié)助完成該測序服務)平臺測序。

圖1?實驗設計及樣本制備流程
技術驗證
- ?短讀長 Illumina 測序數(shù)據(jù)的質(zhì)控
無論是單細胞(圖2a)還是批量細胞的水平上(圖3a),在不同細胞類型的樣本中,每個堿基的平均質(zhì)量分數(shù)分布沒有顯著差異,并且兩個數(shù)據(jù)集的reads在整個基因體上幾乎均勻分布(圖2b, 3b),表明RNA的高度完整性。進一步檢查了reads被映射到的基因區(qū)域,發(fā)現(xiàn)所有樣本中被映射到外顯子區(qū)域的reads明顯增多,而被映射到內(nèi)含子區(qū)域的reads明顯減少(圖2c和圖3c),與之前的報道結(jié)果一致。
對于單細胞測序數(shù)據(jù),還檢查了映射到線粒體和核糖體基因的reads的比例(圖2d)。每個細胞的線粒體基因和細胞核糖體基因的中位數(shù)百分比為0.29和3.04。MPP檢測到的基因數(shù)*高(圖2e),顯著高于LT-HSC,而每個細胞的UMI數(shù)在三種細胞類型之間具有相似性(圖2f)。UMAP圖表明ST-HSC位于LT-HSC和MPP之間(圖2g)。接下來分析細胞類型之間的差異表達基因。LT-HSC、ST-HSC和MPP中分別有62、63和266個差異表達基因。此外一些已知的HSC特征基因,包括Mpl、c-Myc、Mllt3、Gata2,在LT-HSC中表達顯著增高(圖2h)。

圖2?單細胞短讀長測序數(shù)據(jù)質(zhì)控

圖3?批量細胞的短讀長測序數(shù)據(jù)的質(zhì)控
- 長讀長測序數(shù)據(jù)的質(zhì)控和一致性
納米孔(ONT)測序數(shù)據(jù)的平均長度為1024 bp(圖4a)。而PacBio測序數(shù)據(jù)的平均長度為946 bp(圖4)。PacBio測序的質(zhì)量得分高于納米孔測序(圖4b),平均值分別為47.57和10.53。接下來比較了長短讀長測序在有無參考的情況下識別外顯子和轉(zhuǎn)錄本的√準性。結(jié)果發(fā)現(xiàn),無論有無參考,長讀長測序都能提供相對完整的外顯子鏈,包括轉(zhuǎn)錄水平上的新外顯子(圖4c,d),而當有參考時,短讀長測序在識別外顯子方面有著更高的√準性(圖4d)。
為了評估重復之間的一致性,計算了短讀長和長讀長測序之間的基因定量的相關性。相關系數(shù)均在0.93以上(圖4e),表明重復樣本間具有較高的一致性。此外,PCA顯示短讀長和長讀長測序數(shù)據(jù)按細胞類型進行了聚類(圖4f)。結(jié)果表明,長讀長測序數(shù)據(jù)質(zhì)量高,生物重復一致性高。此外,長讀長測序能夠?qū)π碌耐怙@子和轉(zhuǎn)錄本進行識別和定量。

圖4?批量細胞長讀長測序數(shù)據(jù)的質(zhì)控
- 整體可變剪接模式分析
為了研究使用長讀長數(shù)據(jù)集的整體可變剪接模式,首先使用SUPPA2識別可變剪接事件和類型。有趣的是,在所有細胞類型中,常見的選擇性剪接類型是保留內(nèi)含子(RI),其次是外顯子跳躍(SE)和可變3’或5’端剪接位點(圖5a)。接下來發(fā)現(xiàn)超過21762個細胞型特異性的可變剪接事件(圖5b)。SE是三個細胞類型中常見的可變剪接類型(圖5c),其次是RI和可變3’或5’端剪接位點。這些結(jié)果表明,長讀長測序有助于識別大量可能在造血過程中具有潛在功能的細胞特異性或共有的可變剪接事件。

圖5?批量細胞長讀長測序數(shù)據(jù)的整體可變剪接分析
- 可變剪接異構體的鑒定和定量
為了進一步確認長讀長在識別可變剪接異構體方面的優(yōu)勢,使用納米孔和PacBio測序數(shù)據(jù)對三種細胞類型中已知的LT-HSC的標志物c-Myc和Gata2(圖2h)的轉(zhuǎn)錄本進行了可視化。接下來篩選了所有映射到基因c-Myc和Gata2及其注釋的轉(zhuǎn)錄本上的reads。發(fā)現(xiàn)2915個reads覆蓋到了c-Myc,且LT-HSC的reads數(shù)*多(圖6a)。在納米孔和PacBio測序數(shù)據(jù)中可視化了全長轉(zhuǎn)錄本的reads,發(fā)現(xiàn)所有注釋的亞型都能被鑒定識別(圖6c)。在c-Myc第一個外顯子中發(fā)現(xiàn)了一個5 ‘的可變剪接起始位點。使用短讀長測序數(shù)據(jù)來定量該基因座的剪接百分比(PSI),發(fā)現(xiàn)較長的異構體在所有三種細胞類型中具有相似的 PSI(剪接百分比),ST-HSC中包含第一個外顯子的較長異構體的reads占比比較高(圖6 e)。對于Gata2來說,發(fā)現(xiàn)覆蓋有595個reads,在LT-HSC中比其他兩種細胞類型多了近20倍的reads數(shù)(圖6b)。通過對比全長reads和注釋的轉(zhuǎn)錄本,發(fā)現(xiàn)在LT-HSC中Ensembl的轉(zhuǎn)錄本中有一個未注釋的內(nèi)含子保留(圖6d)。隨后利用短讀長測序數(shù)據(jù)驗證驗證了這種內(nèi)含子保留并定量這個內(nèi)含子的PSI值,發(fā)現(xiàn)該內(nèi)含子在LT-HSC中PSI值*高(圖6f)。接下來展示將長讀長測序與單細胞RNA-seq結(jié)合的數(shù)據(jù)示例,從長讀長測序數(shù)據(jù)中鑒定到了一個在Mpl中具有24 bp可變剪接區(qū)域的可5’剪接位點(A5)?;赟mart-seq2的測序數(shù)據(jù)發(fā)現(xiàn)這個剪接事件在不同細胞類型中是差異的,其PSI值從LT-HSC,ST-HSC到MPP是依次遞減的(圖6g-j)。使用Smart-seq2數(shù)據(jù)可以觀察到單個細胞間的異質(zhì)性(圖6h),在造血過程中,所涉及的長和短剪接位點(SJ)是被顯著下調(diào)的(圖6i,j)。這些結(jié)果表明,整合短讀長和長讀長測序有助于識別差異表達的異構體。

圖6?長讀長結(jié)合短讀長數(shù)據(jù)識別定量可變剪接異構體
測序數(shù)據(jù)集說明
大批量短讀長RNA-seq可在各種組織或細胞樣本中用于√準性的定量基因表達和替代外顯子使用。單細胞RNA測序在揭示細胞類型內(nèi)基因表達的異質(zhì)性方面是強而有力的。全長RNA-seq實驗流程,如Smart-seq2,也可以檢測可變剪接中的異質(zhì)性。然而,使用短讀長測序來組裝轉(zhuǎn)錄本仍然很困難。
本文的測序數(shù)據(jù)集為揭示HSC群體中的轉(zhuǎn)錄本的多樣性提供了獨特的機會。通過整合短讀長和長讀長的批量測序數(shù)據(jù)集,可以更好地識別和定量(新型)可變剪接異構體。而scRNA-seq數(shù)據(jù)可以進一步提供有關這些轉(zhuǎn)錄本如何在不同HSC細胞類型中變化的信息。此外,該數(shù)據(jù)集可用于開發(fā)統(tǒng)計模型以重建異構體,并能夠進一步在很大程度上研究未探索的轉(zhuǎn)錄后調(diào)控,例如單細胞水平的可變剪接和RNA編輯。
如果您對該研究思路感興趣,點擊下方按鈕聯(lián)系我們,我們將免費為您設計文章研究思路