平行单细胞转录组和染色质可及性测序揭示重编程轨迹的多样性Word格式.docx

资源描述

平行单细胞转录组和染色质可及性测序揭示重编程轨迹的多样性Word格式.docx

《平行单细胞转录组和染色质可及性测序揭示重编程轨迹的多样性Word格式.docx》由会员分享，可在线阅读，更多相关《平行单细胞转录组和染色质可及性测序揭示重编程轨迹的多样性Word格式.docx（13页珍藏版）》请在冰豆网上搜索。

平行单细胞转录组和染色质可及性测序揭示重编程轨迹的多样性Word格式.docx

同样，大多数10X文库质量良好（图1G，1H）。

UMAP聚类发现从亲代BJ到D16+细胞的动态转录组转变（图1D）。

预期ZEB1（间充质）和COL1A1（体细胞）在早期时间点和非重编程细胞中大量表达（图1E和1F）。

相反，EPCAM（上皮）和NANOG和LIN28A（多能性）在成功重编程的细胞中高表达（图1E，1F）。

同样，大部分scATAC-Seq文库通过了之前报道的质量控制指数，并表现出转录起始位点（TSS）区域和核小体分布的富集（图1G-1I）。

总的来说，研究结果为数以万计的重编程细胞生成了可靠的单细胞文库，为破译其深层分子机制提供了丰富的资源。

图1.

用于消除人类细胞重新编程中的异质性的单细胞系统。

（A）在人类细胞重新编程的不同时间点上准备的单细胞NGS文库概述。

利用微流控平台制备了439个scRNA-Seq和891个scATAC-Seq文库。

利用10x基因组学平台制备了32138个高质量的scRNA-Seq文库。

（B）基于微流控捕获的scRNA-Seq文库的质量控制。

Dotlot显示了每个scRNA-Seq文库的外显子映射百分比（x轴），以及相应的检测到的基因率（y轴）。

（C）基于捕获的scRNA-Seq文库相对于遗传体的平均富集。

（D）制备的10XscRNA-Seq文库的UMAP图。

（E和F）MET基因（E）和成纤维细胞和多能基因（F）的表达水平重叠。

（G）SCATAC-Seq文库的质量控制。

Dotlot展示了每个scATAC-Seq库的库大小（x轴），以及它对各个时间点的HAR的贡献（y轴）。

（H）D16+scATAC-Seq文库在基因组转录起始点（TS）附近的平均富集轮廓。

（I）揭示核小体模式的D16+scATAC-Seq文库的插入大小度量直方图。

识别具有不同重编程电位的异质性亚组

为了确定每个重编程时间点存在的不同群体，使用参考成分分析对scRNA-Seq文库进行了聚类。

BJ细胞与平滑肌谱系显著相关（图1A，1B）。

D2细胞被4个不同的亚组（G1～G4）标记，其中G1-2细胞与成纤维细胞和间充质干细胞（MSCs）表现出较低的相关性（图2A）。

另一方面，D8细胞分布在三个离散的亚组中。

D8G1细胞与成纤维细胞、平滑肌、肌细胞和MSC谱系相对应，而G3细胞与PSCs表现出实质性的相似性。

D8G2细胞代表中间状态。

同样，D16+细胞中存在两个亚群，其中G2细胞与PSCs高度相关，而G1细胞与MSCs、脂肪细胞和内皮细胞保持可检测的相关性（图2A）。

综上所述，RCA分析表明重编程细胞具有高度多样性，其中一些可能偏离多能性的途径，获得替代谱系细胞命运。

然后，进行了差异基因表达（DGE）分析，以评价亚组特异性基因。

在D2亚组中，G3细胞具有最明显的转录组学特征，仅表达大量基因。

而大多数D2G1-2基因在D16+G2中高表达，但在D16-细胞中不表达，表明它们具有更高的重编程倾向（图2B）。

在D8亚组中，G1和G1-2特异性基因在BJ和D16-中高表达，但在D16+细胞中不表达，包括与细胞外基质组织和胶原分解代谢过程相关的基因——如JUNB、LUM、COL1A1和COL6A3——被报道为重编程的障碍。

而D8G2-3和G3特异性基因则观察到相反的趋势。

同样，与RCA相关性一致，D16+G1特异性基因在D16-细胞中也大量表达，含有MMP2等参与细胞外基质组织的基因，暗示D16+G1细胞最多部分重编程（图2B）。

另一方面，上皮基因和包括CDH1、NANOG和LIN28A在内的多能基因在D16+G2细胞中特异性表达（图2B）。

与此相一致，干性分析揭示了D16+G1特异性基因与分化谱系的关联和D16+G2基因与多能性的关联。

为了测试D8亚组的不同重编程电位，研究将其与不同时间点的亚组相关联。

D8G3与D16+G2高度相关，而D8G1细胞与D16-细胞和早期时间点（BJ和D2）的细胞密切相关。

另一方面，D8G2细胞代表中间状态，与早期时间点的两种细胞和D16+/-中度相关。

重编程过程的伪时间轨迹

接下来分析了10X文库，构建了细胞重编程的轨迹，它由9个状态和4个分支事件组成（图2C）。

伪时间与实际重编程时间点高度相关（图2C，2D）。

为了回答RCA亚组如何在伪时间轨迹中分布，以与FluidigmscRNA-Seq文库相同的方式从10X文库中识别了RCA亚组，并将RCA亚组身份叠加在轨迹图上（图2E）。

从两个数据集中确定的RCA亚组不仅与不同谱系具有相同的相关性模式，而且彼此之间显示出统计学相似性。

联合RCA分析证明，与其他D2亚组相比，D2G1-2细胞聚集在更接近D8G2细胞的地方，并且与胚胎干细胞（ESC）命运的相关性更强，进一步证实了它们更高的重编程倾向。

至于D8亚组，G1细胞富集了状态9以外的状态（成功重编程），而G3细胞多在状态9中发现（图2E，2F）。

另一方面，D8G2细胞主要属于状态4和9（图2E，2F）。

有趣的是，状态4（627个细胞）几乎完全由D8G2（544个细胞）组成（图2E，2F）。

D16+G2细胞是状态9的主要成分，而D16+G1的细胞在状态8（非重编程）和状态9中均富集，证实了它们的部分或非重编程同一性（图2E）。

进一步，亚组特异性标记物沿假时间轴差异表达（图2G）。

RFC3（D8G2-3）、GDF3（D8G3）以及NANOG和LIN28A（D16+G2）在成功重编程轨迹上的细胞中高表达，而MMP2（D16+G1）则表现出相反的趋势（图2G）。

除了RCA，还检测了系统中小鼠重编程细胞的谱系。

根据特征基因的表达，用谱系同一性注释重编程细胞。

值得注意的是，在小鼠重编程的早期阶段，间质-上皮转化（MET）事件导致早期细胞群分叉为基质和上皮细胞。

观察到间充质基因在早期下调，而大多数上皮基因仅在人类重编程的晚期表达。

与此观点一致的是，在人类重编程中，上皮谱系仅在包含晚期时间点（D12和D16）的状态8和状态9中富集此外，滋养层和神经系出现在小鼠重编程的中晚期。

同样，也观察到在状态8和9（D12和D16-）的细胞中滋养层和神经系的富集。

有趣的是，研究人员发现状态8细胞中的一些（D12和D16-）类似于免疫谱系。

图2.识别不同的重新编程子组并构建重新编程轨迹。

（A）显示D2（左）、D8（中）和D16+（右）细胞亚群的PCA，由RCA根据其与RCA面板中不同谱系细胞的相关性确定。

每种颜色代表一个子组。

（B）显示差异表达基因CDK1（D2）、GDF3（D8）、MMP2（D16+）和Lin28a（D16+）的单细胞表达的框图。

（C）左：

基于DDRTree降维的10XscRNA-Seq文库构建的重编程细胞的轨迹。

颜色代表时间点。

右：

单周期计算的伪时间。

（D）指示重编程时间点在伪时间状态上的分布的堆叠列。

（E）在重新编程轨迹上叠加D8亚群（左）和D16+亚群（右）。

（F）显示D8亚群在伪时态间分布的堆叠柱。

颜色表示D8子组，灰色表示其他时间点的单元格。

（G）D8亚组特异性基因（RFC3和GDF3）和D16+亚组特异性基因（NANOG、MMP2和Lin28a）的表达叠加在重新编程轨迹上。

荧光探针筛选早中期重编程细胞

为了富集具有高重编程潜力的中间细胞，使用面向多样性的荧光文库方法（DOFLA）生成的34种荧光染料的文库进行了筛选。

由于BJ成纤维细胞的固有重编程效率较低，预期荧光探针的染色信号在用对照培养基培养的D8细胞中较弱，否则，认为探针显示非特异性染色。

除此之外，用对照和A83-01培养基培养的重编程细胞之间具有差异染色信号的染料被鉴定能够区分早期重编程细胞。

在排名靠前的染料中，研究人员选择了3种代表性染料进行功能验证，即BDD1-A2、BDD2-A6和BDD2-C8。

它们的染色信号与TRA-1-60共定位。

在这些染料中，BDD2-C8始终区分由BJ和MRC5成纤维细胞诱导的早期重编程细胞。

此外，BDD2-C8还精确地捕获了关键调节剂耗尽后重编程效率的变化。

接下来为用BDD2-C8（D8BDD2-C8高和D8BDD2-C8低）染色的前10%和后10%的D8细胞制备了192个基于捕获的scRNA-Seq文库。

在随后的RCA分析中，D8BDD2-C8高细胞和D8BDD2-C8低细胞分别聚集在靠近D8G2-3和G1的位置。

BDD2-C8定位于内质网和高尔基体。

分泌基因被发现在D8BDD2-C8低细胞中高表达，表明了其活跃的内质网-高尔基体分泌途径。

这些基因的耗竭确实导致了BDD2-C8的保留。

总之，BDD2-C8可能从BJ和非重编程细胞（D8G1）中主动流出，但由于其ER-高尔基体分泌活性的差异，保留在具有高重编程潜力的多能细胞和中间细胞中。

富集具有不同重编程潜力的早期中间细胞的表面标记物

通过对scRNA-Seq文库的分析，还确定了表面标记，以富集具有不同重编程潜力的中间细胞。

应用以下标准列出表面标记物：

（i）在D8亚组中差异表达；

（ii）在D8亚组中至少一个亚组中高表达，以便于下游验证；

（iii）在重编程时间点和相应亚组中具有相似表达动力学的每个类别的代表。

因此，研究人员在以下研究中选取CD13、CD44和CD201进行进一步验证。

一般而言，选择的表面标记物随着重编程的进行表现出表达减少，除了PROCR（CD201）仅在基于捕获的scRNA-Seq文库中表现出趋势（图3A）。

表明使用两种scRNA-Seq策略对于破译重编程中的分子变化的重要性。

值得注意的是，表面标记物在D8G1/G2和D16-细胞中的表达分别高于D8G3和D16+细胞。

通过时间进程荧光激活细胞分选（FACS）分析验证表面标记物的表达动力学（图3B）。

然后，检测了BDD2-C8与已鉴定表面标记物之间的相关性。

预期，D8BDD2-C8高细胞表现出较低水平的CD13、CD44和CD201（图3C）。

CD201在BDD2-C8分选的细胞中表达，差异较小，这可能是由于CD201在大多数前10%的BDD2-C8细胞（G2样）和后10%的BDD2-C8细胞（G1样）中高表达。

再者，CD13和CD44阴性染色的D8细胞表现出较低的间充质标记物表达但较高的上皮和多能性基因，包括D8G3标记物GDF3（图3D）。

与CD13和CD44分选细胞不同，大多数MET基因在CD201分选细胞中表达水平相当，与早期看到的表面标记和BDD2-C8染色信号之间相关性的明显观察结果一致（图3D）。

尽管如此，所有入围的表面标记物负染的D8群体产生了更多的TRA-1-60+集落，表明它们能够分离具有高干性特征的早期重编程细胞（图3E）。

为了验证早期关于CD201是否观察到不同模式的假设，对鉴定的表面标记物进行了时程共染色，并使用FACS进行了分析。

与早期结果一致，CD13和CD44标记在各时间点表现出广泛的重叠（图3F）。

CD13和CD44双阴性染色的群体比例随着重编程的进行而增加，而双阳性染色谱的群体则观察到相反的趋势（图3F）。

另一方面，大量重编程细胞表现出CD13和CD201（CD13-CD201+）的染色信号不一致，可能代表D8G2样细胞，其中的百分比随着重编程的进行而上升（图3F）。

总之，除了CD13和CD44标记的细胞群，CD201也标记了具有较低重编程倾向的不同中间细胞群。

还测试了表面标记在使用仙台病毒从骨髓间充质干细胞诱导的替代重编程系统中的适用性。

由于仙台病毒诱导的动力学与慢病毒相似，因此在D8中间重编程细胞中进行了实验（图3G，3H）。

FACS分析表明，CD13、CD44和CD201在亲代骨髓间充质干细胞和D8细胞中均大量表达。

然而，很少有细胞显示CD201的阴性染色，表明它不能区分仙台病毒诱导的早期重编程细胞。

与慢病毒介导的BJ重编程相似，D8骨髓间充质干细胞中CD13和CD44的共染显示了大量的重叠信号。

值得注意的是，D8CD13-MSCs表现出GDF3和其他多能性基因的表达是CD13+细胞的60倍（图3G）。

而且，在有或没有TGF-抑制的辅助下，D8CD13-MSCs导致显著更高的重编程效率（图3H）。

综上所述，CD13和CD44的表达模式在骨髓间充质干细胞诱导的替代仙台重编程系统中重现。

此外，CD13以较高的重编程效率有效地标记了细胞。

图3.

识别早-中期重编程单元的表面标记。

（A）ANPEP和CD44沿假时间表达的斑点图。

（B）堆叠直方图（上图），显示左侧单元格中表面标记的荧光强度（x轴）。

红色虚线框突出显示阳性染色的人群。

（C）重叠直方图，显示顶部10%和底部10%的BDD2-C8染色细胞表面标志物的染色信号。

（D）定量逆转录聚合酶链式反应（qRT-PCR）检测D8分选细胞的相对表达水平。

（E）D8分选细胞产生的TRA-1~60+集落的定量。

（F）显示表面标记的共染色信号在不同重新编程时间点的细胞上的分布的条形图。

（G）qRT-PCR结果显示，在仙台病毒诱导的D8CD13分选细胞中，胶原/间充质基因（Top）和多能基因（Bottom）相对表达。

（H）用仙台病毒（TOP）对骨髓间充质干细胞（MSC）诱导的D8CD13分选细胞产生的TRA-1-60+集落进行定量。

中间重编程群体的精细分类

为了进一步破译中间重编程细胞内的异质性，用CD13分选的D8细胞制备了10X文库。

聚类显示CD13表达差异的两个截然不同的组（图4A），在CD13+细胞中高表达的大多数基因在D8BDD2-C8低细胞中相应表达，反之亦然，这与BDD2-C8和CD13染色信号之间的FACS相关性一致。

为了精细表征亚群，对D8CD13分选细胞的10X文库进行了Seurat分析，鉴定了8个簇，其中簇5～8主要由CD13+细胞组成（图4B）。

然后对CD13分选的10X文库进行了RCA分析（图4C）。

一般而言，CD13簇表现出与D8RCA亚组相似的相关模式，在间充质谱系和多能性方面（图4C）。

例如，明显分离的CD13+簇（5～8）证明与间充质谱系高度相关，而与ESCs不相关，类似于D8G1细胞的相关模式（图4C）。

相反，紧密聚集的CD13-簇（1、3、4）表现出相反的模式，与D8G3相似（图4C）。

另一方面，簇2的细胞表现出过渡图谱（图4C）。

D8细胞中CD13和GDF3的表达呈强负相关（图4D）。

值得注意的是，在相关图的桥上发现了低表达CD13和GDF3的簇7细胞，表明它们在中间分布。

CD13簇的DGE分析证实了RCA和MAGIC的结果（图4E）。

CD13-簇1、3和4高表达D8G2-3特异性基因，其中簇1和4表现出D8G3标记GDF3的最高表达（图4E，4F）。

再者，对D8CD13分选细胞和其他时间点细胞的10X文库进行假时间分析，发现CD13+簇5、6、8和CD13-簇1、3、4分别在假时间早期和晚期的定位（图4G）。

与它们的GDF3高表达相一致，簇1和簇4的细胞集中在D16+细胞共享的分支，而簇3的细胞是在不成功的重编程分支发现的（图4G）。

另一方面，簇2和簇7共享DEGs，包括体细胞基因JUNB和表面标记CD201（图4E）。

与FACS相关结果一致，MAGIC分析表明CD13和CD44跨簇而不在CD13和CD201之间广泛相关。

CD13和CD201之间的不一致性多由中间簇2和7贡献，它们表现出低CD13但高CD201表达（图4E）。

假设CD13和CD201表面标记物的双重分选将允许富集成功重编程的纯度更高的早期中间细胞。

为了验证，研究人员将D8细胞分为双阴性（CD13-CD201-）、双阳性（CD13+CD201+）和中间（CD13-CD201+）细胞，然后进行转录组学分析。

CD13+CD201+细胞高表达成纤维细胞相关基因、间充质基因以及与细胞外基质和细胞粘附相关的基因（图4H，4I）。

相反，CD13-CD201-细胞高表达与多能性、上皮谱系、细胞分裂和干细胞群维持有关的基因（图4H，4I）。

然而，CD13-CD201+细胞表现出中间转录谱。

除此之外，在CD13+CD201+细胞中高表达的基因主要富集在D16-而不是D16+细胞中，而CD13-CD201-特异性基因则相反。

而且，耗尽CD13+CD201+群体中高表达的基因导致了更多数量的重编程集落（图4J）。

值得注意的是，D8CD13-CD201-群体产生的TRA-1-60+集落数量最高，其次是CD13-CD201+（中间）和CD13+CD201+细胞（图4K）。

在使用仙台病毒诱导的替代BJ重编程系统中验证了三个不同的D8群体的存在和重编程潜力。

总之，同时使用CD13和CD201抗体能够解析精确的中间群体，为成功的重编程做好了不同的准备。

图4.

早期-中期重新编程单元的精细分类和富集。

（A和B）t-SNE图，表明D8CD13排序的10X文库的CD13抗原图谱（A）和Seurat簇（B）。

（C）D8CD13排序的10X文库的RCA聚类。

（D）显示CD13和GDF3之间相关性的魔术图。

颜色代表NANOG的表达水平。

（E）显示CD13团簇深度的热图。

橙色突出显示的基因在D8、G2和G3中高表达。

（F）展示GDF3跨簇表达的小提琴曲线图。

（G）左：

由不同时间点的10XscRNA-Seq文库和D8CD13-分选细胞构成的轨迹。

右图：

CD13簇叠加。

（H）定量RT-PCR检测D8、CD13和CD201分选细胞的相对表达。

（I）左：

热图，显示从大量RNA-Seq文库中确定的D8、CD13和CD201分选细胞的DEG。

（J）在重编程的第5天，在CD13+CD201+细胞中高表达的基因被敲除后，标准化的TRA-1-60+克隆。

（K）D8、CD13、CD201分选细胞TRA-1~60+集落的定量。

细胞重编程的阶段特异性调控网络

人类细胞重编程的阶段特异性核心调控网络仍然难以捉摸。

为此，对跨越假时间状态的TF进行了DGE分析，然后将其分为早期沉默、晚期沉默、瞬时、早期表达和晚期表达（图5A）。

许多TF在D8RCA亚组和D8BDD2-C8–和CD13&

CD201分选细胞中表现出相似的表达趋势。

大多数瞬时TF在D8CD13+CD201+和D8CD13-CD201+群体中表现出较高的表达，而一些谱系相关因子。

相反，早期表达的TF在D8CD13-CD201-和D8CD13-CD201+中表现出较高的表达。

值得注意的是，D8CD13-CD201-细胞表达最高水平的晚期表达TF，如PRDM14、DNMT3B和LHX6。

为了研究调控转录因子如何访问它们的基因组靶标，然后分析了重编程细胞的时程scATAC-Seq文库。

为了整合scATAC-Seq和scRNA-Seq数据集，根据簇特异性基因活动预测每个scATAC-Seq文库相应的scRNA-Seq簇，并将两个数据集共同嵌入相同的低维空间进行可视化。

接下来，scATAC-Seq文库之间的相关性导致了三大集群（图5B）。

大部分由BJ和D2组成的早期细胞聚集在一起（簇II），而D8、D16+和H1细胞具有相似的可及性特征（簇I）（图5B）。

第三个簇主要由D8和D16-细胞组成（簇Ⅲ）（图5B）。

使用chromVAR来鉴定决定可变表观基因组可及性的TF（图5C）。

在重编程细胞和人类胚胎干细胞（hESCs）的各个时间点，发现具有TF基序序列的染色质。

然后根据基序可及性的动力学，将TF分类为OC（在BJ中打开，但在D16+和hESC中关闭）、Transient和CO（图5D）。

特别是OCTF多属于FOS-JUN-AP1复合物，如FOSL1和JDP2（JUN二聚化蛋白2）（图5D-5F）。

观察结果证实了对抗诱导多能性的谱系质量标准网络的模型。

使用单细胞调控网络推理和聚类（SCENIC）分析来推断TF的调控子活性，基于TF和含有TF基序序列的潜在靶基因的共表达。

随着重编程的进行，沉默和OCTF的调节子活性降低，而大多数表达和COTF表现出相反的动力学。

同样，瞬时转录因子的调节子活性只在中间细胞中观察到。

总之，这些数据代表了TF调节细胞重编程过程中下游关键调节剂的网络。

图5.

特定阶段的TF调节网络的重新编程。

（A）显示TF在伪时间状态上的表达的热图。

顶部的颜色代码表示伪时间状态。

右侧列出了每个类别的代表性TF。

（B）基于计算的HARs中Jaspar基序偏差的scATAC-Seq文库之间的相关性。

侧面颜色条表示scATAC-Seq库的时间点。

（C）标明SCATAC-Seq文库中可获得性差异显著的基序的曲线图。

（D）基于显著可变的Jaspar基序的偏差分数的scATAC-Seq热图。

顶部的颜色代码代表时间点。

（E）基于Jaspar基序偏离分数的scATAC-Seq文库的t-SNE图。

（F至I）OC基序FOSL1和CEBPA（F）、瞬时基序GATA1：

TAL1（G）、CO基序：

I-TEAD4（H）、II-FOXL1（I）的基序富集分数在t-SNE图上叠加。

颜色表示主题的可访问性级别。

重编程中间阶段关键调节器的识别

为了推断出中间细胞获得多能性所必需的TF，分别分析了D8

scATAC-Seq文库。

有趣的是，D8细胞最可变的基序属于FOS-JUN-AP1和TEAD家族（图6A）。

D8细胞要么可用于FOSL1-JUN-AP1，要么可用于TEAD4基序（图6B）。

此外，FOSL1和TEAD4在重编程过程中表现出对比的表达模式和调节子活性（

展开阅读全文