circRNA研究常用数据库与小工具 – 888集团浏览器官网 - 888电子游戏 //www.xjpih.com Wed, 16 Apr 2025 02:49:16 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.1.3 //www.xjpih.com/wp-content/uploads/2019/03/cropped-circRNA(透明)-2-32x32.png circRNA研究常用数据库与小工具 – 888集团浏览器官网 - 888电子游戏 //www.xjpih.com 32 32 Nucleic Acids Res丨台湾省研究人员整合二代和三代测序数据识别基因内ts-RNA //www.xjpih.com/?p=10250 //www.xjpih.com/?p=10250#respond Thu, 03 Aug 2023 06:34:33 +0000 //www.xjpih.com/?p=10250

概述

可能大部分环状RNA的研究者都没想到,就算根据标准的环状RNA检验方法,环状RNA仍然会上演“真假美猴王”的剧情。特别是这里的六耳猕猴也非常能打~

前不久才在一篇文章中提到过环状RNA分子识别与验证的标准指南……(lll¬ω¬)

Nature Methods丨大咖组团发表环状RNA检测工具的评估报告以及使用指南

2023年7月27日,台湾省中央研究院的庄树谆教授团队Nucleic Acids Research(IF=14.9)上发表了一篇关于ts-RNA的文章【Detecting intragenic trans-splicing events from non-co-linearly spliced junctions by hybrid sequencing】。

作者通过整合二代和三代测序数据开发了一个识别基因内ts-RNA的生信工具NCLscan-hybrid,提出了用out-of-circle和rolling-circle特征来区分基因内ts-RNA和circRNA;通过该工具,作者发现环状RNA公共数据库中一些环状RNA可能是ts-RNA,二者都具有相同的序列特征BSJ。为此,作者设计了一系列的实验步骤证实了ts-RNA的存在,排除了环状RNA的可能。此外,作者用 CRISPR/Cas9探索了ts-RNA生物合成的机制,发现和环状RNA一样,侧翼内含子中的互补序列能够促进ts-RNA的形成。最后,作者对其中一个 tsRNA分子ts-ARFGEF1进行了体外和体能的功能实验,发现该分子在乳腺癌细胞中通过影响 PERK/eIF2a/ATF4/CHOP信号通路在p53介导的凋亡过程中扮演着重要角色。


基本概念

要看懂这篇文章,我们首先要了解一些基本概念:

1、共线性与非共线性

2009年Nature发表的Implications of chimeric non-collinear transcripts文章给出了转录中共线性(co-linear)以及非共线性(non-co-linear,NCL)的定义。

所以,环状RNA属于非共线性RNA分子。

2、什么是ts-RNA

RNA剪接发生在一个前体mRNA(pre-mRNA)的分子内部称为cis-splicing;如果发生在两个前体 RNA分子之间,形成杂合的mRNA,那么这种剪接方式就称为trans-splicing。trans-splicing的两个前体RNA可以来自同一基因的同义链,也可以来自正反义链,甚至可以来自不同染色体的两个基因。

ts-RNA即trans-spliced RNA,本篇文章主要研究的是基因内ts-RNA(见下图)。

3、基因内ts-RNA与circRNA

从图中我们可以看出,circRNA实际上是cis-spliced RNA,而基因内的ts-RNA是由同一基因的两条前体RNA拼接而成。

从示意图我们可以看出,基因内ts-RNA也包含 back-spliced junction,文章中称为NCL junction。

早在2018年circRNA公众号就解读过ts-RNA,大家有兴趣可以访问:

Nucleic Acids Research:反向拼接产物也可能是分子间拼接的产物!

检测ts-RNA面临的挑战

由于成熟的ts-RNA包含poly(A)而环状RNA不包含,因此,poly(A)+的二代测序比较适合检测ts-RNA。

然而,基因内ts-RNA的识别仍要面临诸多挑战:

目前的二代测序短读长仍存在错误基因组比对的问题;

通过二代测序技术难以区分ts-RNA与环状 RNA,特别是它俩可能具有相同的NCL junctions;

模板交换事件(template swithching events)等实验产物经常出现在cDNA产物中,可能会被误认为NCL事件;

DNA水平的遗传重组所形成的NCL也是检测真实 ts-RNA的另一大挑战;

目前仍不清楚ts-RNA是否只是pre-mRNA剪切不完善的副产物,或者是否能够介导对应共线性宿主的表达;

基因内ts-RNA生物合成仍不清楚。

敢情这种分子比环状RNA检测还要难。

为了解决上面的问题,作者还采用了三代长度长测序。相比二代测序,三代测序在识别ts-RNA具有巨大的优势:

避免了短读长测序识别NCL junctions所存在的偏差;

能够区分ts-RNA与circRNA。

二代+三代测序检测ts-RNA

作者通过整合二代测序与三代测序数据,开发了 NCLscan-hybrid流程用于检测基因内ts-RNA(如下图)。

NCLscan-hybrid检测ts-RNA的流程:

作者收集了9个环状RNA数据库的基因内的NCL junctions(即之前被识别到的back-spliced junctions)作为候选NCL junction(图A-a),通过total RNA建库以及poly(A)+两种建库方式对 MCF-7细胞系进行测序,然后对候选NCL junction进行定量,只有被两种文库支持的NCL junctions才被保留(图A-b)。

基于被保留的NCL junctions,NCLscan-hybrid 将NCL junction侧翼外显子拼接生成假参考序列,然后将三代测序的reads通过比对到假参考序列上(图A-c,图B)。只有包含三代测序reads的 NCL事件被保留。

随后,包含NCL junction的三代测序reads根据 NCL break points被分割成了两个部分,然后每一部分被比对到GRCh38参考基因组上(图B)。为了最大限度的减少被其他共线性或多重比对带来的假阳性,这里的NCL事件必须满足:被分割两部分的三代测序reads在比对时必须唯一匹配到相同的基因位点。

如果至少有一个分割部分超出了NCL供体或受体的剪接位点,那么这条三代测序的read被称为 “out-of-circle-read”(图B右侧),而这条read所对应的RNA被认定为ts-RNA。

如果一条read包含两个或多个NCL break points,并且不存在”out-of-circle-read”的序列,那么这条read被称为“rolling-circle-read”(图B右侧)。

在这项研究中,作者并没有发现同时包含”out-of-circle-read”以及“folling-circle-read”的事件。

最后,作者识别到了17个来自8个ts-RNA的事件,其中7个事件来自于ts-ARFGEF1。

实验验证ts-RNA

为了排除真实ts-RNA的干扰项,包括:

反转录产物,例如模板交换事件(template swithing events);

环状RNA;

遗传重组。

作者设计了一系列验证步骤对8个候选ts-RNA进行实验检验(下图是汇总):

1) 由于反转录产物往往依赖于反转录酶,因此,通过两种不同的反转录酶(逆转录病毒的反转录酶 SSIV和细菌II型内含子反转录酶 Induro)进行并行实验,然后通过sanger测序检测NCL junction。作者发现8个候选ts-RNA都与反转录酶没有关系(A)。

2) 为了区分ts-RNA与circRNA,作者首先对total RNA进行加A尾(A-tailing),然后用RNase R消化(B)。

然而,有许多存在高级结构或G四联体的环状RNA对RNase R耐受。为了解决该问题,作者通过在第10分钟和第90分钟停止Induro反转录酶(具有强烈且稳定的滚换反转录活性)的反转录反应,然后用qPCR检测NCL junction。如果在90min的cDNA产物比10min时更高,那么该NCL junction更可能来自环状RNA(C)。

同时,作者用oligo-dT pull-down检测了这些候选分子是否包含poly(A)尾(D)。

为了进一步检测候选分子是线性而非环状,作者通过生物素标记的寡核苷酸检测(biotin-labeled oligonucleotide assay)来捕获线性转录本,并观察与oligo-dT pull-down结果的相似性(E)。

另外,为了证实ts-RNA存在,作者设计了 convergent primer pairs——其中一条引物跨越 NCL junction,另一条落于NCL供体位点外侧——并在多个乳腺癌细胞系对ts-RNA进行检测(F)。

3) 为了验证ts-RNA主要来自转录后而不是遗传重组,作者设计了divergent以及convergent primers对ts-RNA转录本进行扩增。PCR结果显示,divergent primers扩增的产物来自cDNA而不是gDNA,而convergent primers对cDNA和gDNA 都有扩增(G)。

4) ts-ARFGEF1额外验证:

上面一系列验证步骤表明ts-ARFGEF1与ts-TRIM37主要来自trans-splicing,并且ts-ARFGEF1具有较高的out-of-circle比率(如下图)。

因此,作者采用了更多的验证步骤来检验ts-ARFGEF1:

1、反转录产物的排除

作者针对NCL junction设计了锁核酸的反义寡核苷酸(locked nucleic acid-modified antisense oligonucleotides,LNA-ASO),然后用RNase H处理来自MCF-7细胞系的total RNA(H, top),随后qRT-PCR分析对包含NCL junction的转录本进行了检测。RNase H会消化杂交到DNA 上的RNA,而来自反转录的产物表达将不会受严重影响(H,bottom)。

随后,作者采用了两种非反转录的验证方式来检测 ts-ARFGEF1的NCL junction。

– SplintR-qPCR

通过两条探针与NCL junction末端杂交,然后用 SplintR连接酶连接两条探针(I,left)。随后用 ASO对NCL junction进行敲除,并用qPCR进行丰度检测(I,right)。

– RNAFISH

RNA荧光原味杂交显示ts-ARFGEF1主要定位与细胞核中(J),亚细胞组分分析也有同样的结果。

2、排除circRNA

首先设计convergent primers来证实ts-RNA序列跨越了NCL供体和受体位点,然后靶向NCL junction的生物素标记的寡核苷酸来pull down对应的转录本,随后用nanopore对捕获到的分子进行测序(K,top)。

qRT-PCR表明pull down效率较高(K,buttom left),nanopore测序的reads表明89%的reads 属于out-of-circle(K,buttom)。

3、排除遗传重组

针对Intron26和Intron19(L,middle),作者通过 PCR+Sanger测序证实了短序列的Intron26,然后用长的PCR实验+Nanopore测序证实了长序列的 Intron19(L,left,right)。同时将Nanopore reads比对到Exon26,证实了Intron19确实不包含 Exon26序列。以上结果排除了ts-RNA来自遗传重组的可能。

ts-RNA的起源

已有研究表明ts-RNA的形成与NCL junction侧翼内含子中的反向互补序列(RCS)相关,但目前仍缺少内源性的实验证据。

因此,作者首先检测了ts-ARFGEF1 NCL junction侧翼内含子Intron 19和Intron 26中是否包含RCS,结果发现了一对RCS(A,buttom)。随后,作者用异位表达系统(ectopic expression system)和内源基因组修饰实验(endogenous genome modification experiment)检测RCS是否能够触发ts-ARFGEF1的生物合成。

1、异位表达系统构建

作者将包含Exon26-Intron26-Exon27(WT)与 Exon26-Intron26mut-Exon27(Mut,mutant RCS in intron 26)的区域分别插入到pFLAG-CMV2载体(A,top)。

随后,这两种载体被分别转染到MCF-7细胞中,随后用带有FLAG跨junction的primer FLAG-Exon26-Exon20对ts-ARFGEF1的表达进行监控。结果显示,FLAG-Exon26-Exon20仅在WT 中能够被检测到,而Mut并没有(B)。

用同样的方法,ts-TRIM37表达也被证实能够被 RCS诱导。

2、内源基因组修饰实验

作者用CRISPR/Cas9对Intron 26上的RCS位点进行了突变(C),ts-ARFGEF1的表达显著降低(D)。

随后,作者用高保真的CRISPR/Cas9系统将 Intron 19内的RCS删除了一个碱基(E),同样地,ts-ARFGEF1的表达显著降低(F)。

另外,值得注意的是,通过WB实验我们可以发现,上面的突变/删除实验并没有影响来源基因 ARFGEF1共线性转录本的蛋白表达水平(G)。

所有这些结果证明了侧翼内含子上的RCS对能够调控ts-ARFGEF1 NCL junction的形成。

ts-ARFGEF1的功能

作者发现ts-ARFGEF1在MCF-7以及MDA-MB-157两种乳腺癌细胞系中特异的表达,但在非肿瘤上皮乳腺细胞系MCF-10A和HBL-100中不表达(如下图)。

因此,作者怀疑ts-ARFGEF1在乳腺癌细胞中具有功能。为此,作者设计了LNA-ASO来靶向它的 NCL junction,试图在两种乳腺癌细胞中沉默ts-RNA(A),并通过以下三种实验来验证ts-ARFGEF1的功能。同时,WB结果显示,这种敲低并不能影响来源基因ARFGEF1蛋白质的表达(B)。

1、CCK-8 assay

ts-ARFGEF1的敲低显著抑制了MCF-7和MDA-MB-157的增殖能力(C)

2、colony formation assay

ts-ARFGEF1敲低后,细胞克隆形成的数据量和大小显著减少(D-E)

3、flow cytometry

ts-ARFGEF1的敲低能够显著增加两种乳腺癌细胞的凋亡(F-G)

随后,作者想了解ts-ARFGEF1是否是通过编码蛋白发挥功能,因此预测了它的蛋白质编码序列 ——与ARFGEF1蛋白质序列部分重合。然而通过设计N端抗体对其蛋白质进行检测,并没有发现 ts-ARFGEF1具有蛋白质编码能力

最后,作者试图检测ts-ARFGEF1在体内对肿瘤进展的影响,因此对裸鼠原位注射了control MCF-7 和ts-ARFGEF1-knockdown MCF-7,从而构建异位移植瘤模型。作者发现ts-ARFGEF1-knockdown小鼠中的肿瘤更小。

为了进一步确认ts-ARFGEF1敲低确实能够作为抑制肿瘤的治疗手段,作者先对裸鼠原位注射了 control MCF-7,当肿瘤生长到14天达到~25mm 时,对小鼠通过腹膜注射LNA-ASOs(H)。结果显示,LNA-ASOs注射的肿瘤生长率显著低于 control(I)。而到了接种后的第28天,LNA-ASOs肿瘤的容量以及重量被明显抑制(J-L)。

以上体外以及体内实验表明,ts-ARFGEF1表达被干扰能够显著抑制肿瘤细胞的生长。

ts-ARFGEF1的潜在调控作用

由于ts-ARFGEF1主要定位在细胞核,因此作者怀疑它主要在转录或转录后调控基因的表达。为此,作者对ts-ARFGEF1敲除前后的MCF-7细胞进行了 microarray检测。

GSEA分析的上调和下调的前10个基因集合表明 ts-ARFGEF1敲低主要与细胞压力或细胞死亡信号通路相关,例如p53 signaling、apoptosis、unfolded protein responses(UPR)等(A)。差异分析获得了167个上调和298个下调的基因(B),且与GSEA结果一致,上调基因显著富集到了UPR和p53 signaling(C)。

由于p53是与凋亡相关的著名肿瘤抑制子,且p53 信号通路是凋亡信号通路中主要的通路之一。因此,作者对ts-ARFGEF1敲低进行表达检测,发现 p53蛋白质以及凋亡重要hallmark之一的PARP水解的表达水平都升高了(D),而TP53以及下游通路相关的基因表达都升高了(E)。

UPR是调控细胞内蛋白质稳态的关键通路,在长期或强烈的内质网(ER)应激下,强烈和持续的 UPR激活可引起癌症细胞凋亡。因此,作者试图检测ts-ARFGEF1是否能够调控ER内稳态并导致细胞凋亡。qRT-PCR显示UPR的两个关键基因 TSPYL2和ATF4以及下游效应因子ATF4、ASNS、CHAC1和SLC7A5的mRNA表达水平在 ts-ARFGEF1敲低后显著上调(F)。已知ER过载能够激活PERK/eIF2α/ATF4/CHOP通路从而诱导凋亡,作者通过WB检测到ts-ARFGEF1敲低后磷酸化后的eIF2α、ATF4以及CHOP蛋白质水平显著上升(G)。为了检测ts-ARFGEF1敲低是否会引起ER应激,作者检测了不正常堆叠蛋白质形成的聚集小体(aggresome),结果显示ts-ARFGEF1敲低的确会引起聚集小体的形成(H)。

以上结果表明ts-ARFGEF1敲低会引起unfolded protein response进而通过激活 PERK/eIF2α/ATF4/CHOP信号通路诱导细胞凋亡,暗示了ts-ARFGEF1在MCF-7细胞的ER内稳态中具有重要作用。

讨论

从本文我们可以看出,ts-RNA存在且具有重要的生物学功能。值得注意的是,ts-RNA与circRNA 都存在相同的分子特征——类BSJ——NCL junction。因此,在研究ts-RNA或circRNA时需要注意区分两者,特别是那些能够被RNase R消化的circRNA也许是ts-RNA。大家可以参考文章的实验步骤来区分ts-RNA以及circRNA。

文章中的软件NCLscan-hybrid可以访问 https://github.com/TreesLab/NCLscan-hybrid,但需要注意的是,该软件针对的是基因内的ts-RNA,且只能识别包含out-of-circle特征的ts-RNA。

原文链接:

https://doi.org/10.1093/nar/gkad623

]]>
//www.xjpih.com/?feed=rss2&p=10250 0
赵方庆、何春江等国内外知名环状RNA专家对环状RNA检测工具的评估报告以及使用指南 //www.xjpih.com/?p=10171 //www.xjpih.com/?p=10171#respond Fri, 21 Jul 2023 06:25:52 +0000 //www.xjpih.com/?p=10171

概述

2023年7月13日,OncoRNALab联合了众多国际知名环状RNA研究大咖在Nature Methods(IF=48.0)刊发了Large-scale benchmarking of circRNA detection tools reveals large differences in sensitivity but not in precision,研究团队对二代测序环状RNA检测工具进行了标准化测试。
OncoRNALab由比利时根特大学的Jo Vandesompele和Pieter Mestdagh教授负责监管,属于根特医学遗传学中心和癌症研究所的一部分。该实验室的研究旨在利用RNA进行诊断和治疗,目前大量研究集中于非编码RNA在癌症中的作用以及细胞外RNA在液体活检中的应用。该实验室试图通过高通量测序技术与生物信息学工具的结合来回答各种基础和转化研究的问题。

 

这篇文章很短,但是故事很长。

文章很短,文章只做了一件环状RNA研究者都会做的事:对高通量测序检测到的环状RNA进行低通量验证

故事很长,本文联合了环状RNA领域的诸多大咖一起,通过3种低通量检测方法对16个高通量circRNA检测方法的精确性和敏感性等指标进行了评估。而这16个工具,来自不同的时间、不同的研究小组,见证了环状RNA领域的发展史;每一个工具的背后应该都有一段故事——叙说了开发者对环状RNA的认知和期许。

文章对3种人类癌症细胞系的total RNA进行了深度测序,通过16种知名的检测工具识别到了315312个环状RNA,随后通过三种正交的低通量验证方法:

qPCR

确定候选circRNA BSJ是否能够被检测到。

RNase R

证实所检测到的RNA是环状的而不是线性的。

amplicon sequencing

即PCR扩增后sanger测序,用于证实环状RNA BSJ序列对1516个预测的circRNAs进行了验证。结果显示,16种工具的准确性中值达到了98.8%、96.3%和95.5%,然而这些工具的敏感性和预测数量差异巨大。

评估过程与部分结果

文章的发起者让16个工具对应的作者团队利用自己的工具对3个深度测序的细胞系进行环状RNA预测(如下图)。随后,每个工具随机挑选80个BSJ counts>=5以及20个BSJ counts<5共100个环状RNA——总共1600个环状RNA用于验证。

一些环状RNA引物存在脱靶风险,将不被考虑用于验证,剩余1560个分子。

同时由于偶然原因,不同的工具,不同的细胞系,相同的circRNA被选中,最后1516个circRNAs被用于最后的验证。

每个工具具体的环状RNA精确性(验证率)如下图

敏感性评估如下图

敏感性和精确性的综合评估

更详细的结果请访问原文:
https://doi.org/10.1038/s41592-023-01944-6

小知识

中肯的建议

该项研究表明,3种验证方法都有各自的优势和偏差,也有一些环状RNA验证结果存在冲突(如下图)。
因此,作者表明
单纯的qPCR验证是不足够的;
qPCR+RNase R组合是OK的;
qPCR+amplicon sequencing更好。
当然,我们可以看到大部分文章,3种验证方法都开展了。
对于高通量环状RNA筛选工具,多个工具得到的交集可能有更高的概率被验证;然而,这种方式仍然无法避免假阳性结果的发生(如下图)。另外,文章也给出了一些工具的组合供研究者参考(文章附表7-9)。

表格链接:

https://www.nature.com/articles/s41592-023-01944-6#MOESM4
文章作者给出了中肯的建议以供环状RNA研究者作为参考(如下表)。
同时,文章中检测以及验证的环状RNA都可以在github上获取到,地址为:

https://github.com/OncoRNALab/circRNA_benchmarking
以下是参与该研究的部分国内大咖清单
• 南京中医药大学,顾万君• 武汉大学,何春江

• 东南大学,温国霞

• 浙江大学,叶楚玉

• 复旦大学,杨力

• 上海中科院,袁国华

• 北京中科院,赵方庆

• 台湾中央研究院,莊樹諄

]]>
//www.xjpih.com/?feed=rss2&p=10171 0
环状RNA十年丨你想了解的环状RNA生物信息学工具这里都有 //www.xjpih.com/?p=9789 //www.xjpih.com/?p=9789#respond Tue, 16 May 2023 06:38:39 +0000 //www.xjpih.com/?p=9789
序言
环状RNA自2013年两篇Nature发表后,该研究领域彻底被点爆,关于环状RNA研究的发表刊物是逐年上涨(如下图)。同时,十年间出现了大量优秀的生物信息学工具。

  

2021年Briefings in Bioinformatics也发了类似的总结《The bioinformatics toolbox for circRNA discovery and analysis》,文章中描述了大约100个生物学工具。

2023年5月3日,发表在Briefings in Bioinformatics期刊的文章Computational approaches for circRNAs prediction and in silico characterization为我们梳理了过去十年环状RNA研究常用的生物信息学研究工具,覆盖了整个环状RNA的研究领域。
  

<有了这篇文章,我们再也不用秃头整理资料了!\^o^/>

当然,环状RNA的故事并不是一篇文章能够讲完的,小编也根据自己过往经验补足了一些文章中没有出现的工具。那接下来就让我们一起阅览一下环状RNA的生物信息研究工具,捋一捋哪些是我们用过的,哪些将来可以用到课题研究中~
PS:本文较长,约4500字,【尾声:一图胜千言】用图对文章原文提到的工具进行了概述。 

环状RNA起源

要研究环状RNA,那我们不得不知道环状RNA是如何生成的。目前大部分研究人员已经自动默认环状RNA主要是线性RNA转录后的产物,环状RNA分子主要通过侧翼内含子互补配对、RBP诱导侧翼内含子以及套索驱动3种方式产生(如下图),且根据环状RNA的基因组结构分成了EcircRNA、EIcircRNA、IcircRNA等不同亚型。

研究者还发现了哪些种类的环状RNA呢,请查看:
非经典环状RNA | 环状分子研究新的突破口?
  

  

环状RNA识别

了解环状RNA起源之后,我们已经明白环状RNA与线性RNA分子序列上最大的区别是BSJ(Back-SplicedJunction)。最初Salzman等人进行生信分析时无意间发现无法比对到基因组的bulk RNA-seq序列存在大量BSJ,于是大胆推测出这些序列来源于环状RNA分子。 

BSJ是识别环状RNA分子的关键,所有预测环状RNA分子的软件——从最初的find_circ到现在常用的CIRI、DCC、CRICexplorer等工具——都基于该理念(请看经典图)。

 

  

当然,不同的软件除了基本思想一致外,还存在两个门派:一个是Split-alignment based approach,另一个是Pseudoreference based approach。由于BSJ无法比对到正常参考基因组,第一种方法将chimeric reads或unmapped reads分割后再一点点与参考基因组比对;第二种是先推测BSJ的外显子,再将这些外显子拼接成假基因组(pseudo reference),然后再将 chimeric reads或unmapped reads比对到假基因组上(如下图)。

 

  
人工智能的产物ChatGPT都已经火出圈了,环状RNA识别怎么能少得了用机器学习的方法。目前已经有PredcircRNA、WebCircRNA、DeepCircCode以及StackCirRNAPred四个工具采用了机器学习的方法。下表就列出了近十年用于识别circRNA的工具:

 

这么多工具,到底哪一款最好呢? 

2017年

PLOS COMPUTATIONAL BIOLOGY发表的文章《A comprehensive overview and evaluation of circular RNA detection tools》对11款工具进行了比较,发现DCC、CIRCexploer、MapSplice、NCLScan、PTESFinder假阳性率较低,而CIRI、CIRCexplorer、KNIFE、Segemehl、PTESFinder具有较高的敏感性。

2018年

随后,另一篇文章《Improved circRNA Identification by Combining Prediction Algorithms》也对11款工具进行了敏感性和特异性的评估,发现大多数方法能检测到的circRNA丰度中值为14-20 reads,而DCC、circRNA_finder、UROBORUS只有11、9、5reads。
然而,不同的软件侧重点不一样,且有些软件一直在更新升级,因此很难认定某一款软件就是最优的,一般采用多个软件组合的方式对circRNA进行检测和筛选。CircComPara2和circRNAwrap这两款软件就整合了多款工具用于circRNA识别。由于并没有一款完美的软件,并且新软件可能存在新的问题,所以大家在课题研究时更多的是沿用之前使用过的软件,这点可以从引用率上体现出来。

 

环状RNA可变剪切与重构

前面的工具主要用于识别BSJ,但环状RNA中间序列是存在可变剪切的。然而,二代测序很难捕获环状RNA序列全长序列。因此,一些工具被开发出来识别环状RNA的可变剪切事件,包括CIRICexplorer3/CIRI-AS等;另一些工具被用于环状RNA的全长构建,包括CIRI-full/circAST/psirc/CYCLeR等。

 

环状RNA全长测序技术

2021年连续发表了4篇关于环状RNA全长测序的策略,用于对环状RNA全长识别与定量以及可变剪切事件的检测,分别包括:• CIRI-long

• circNick-LRS/circPanel-LRS

• circFL-seq

• isoCirc

 

关于这些技术的解读以及优劣势circRNA公众号之前已经解读了许多了,大家感兴趣的话可以阅读以下内容:
circRNA研究新策略 | 三代测序是否能引领circRNA走向未来
Nat Protoc丨中国科学院北京生命科学研究院赵方庆教授团队提出环状RNA全长转录本解析技术
Nature Biotechnology | 基于三代测序技术分析circRNA全长
新风尚 | circFL-seq —— Nanopore 检测全长环状 RNA 新策略
重量级文章!Nanopore circRNA研究又见刊啦

 

在环状RNA全长识别、可变剪切分析以及表达定量等方面,三代测序技术有二代测序无法比拟的优势。高通量检测技术Illumina-basedRNA-seq/microarray/NanoString能检测定量BSJ序列,然而它们无法检测序列长度>300nt的环状RNA全长结构;而不同长度的环状RNA,纳米孔测序技术都能胜任。除此之外,三代测序还能够通过RNC建库检测正在翻译的环状RNA分子,并且能通过direct技术在一定程度上捕获到RNA修饰。

 

技术服务 | circRNA全长纳米孔测序

  

目前关于三代测序对环状RNA修饰的文章较少,感兴趣的童鞋可以查看文章《Profiling of circular RNA N6-methyladenosine in moso bamboo(Phyllostachys edulis)using nanopore-based direct RNA sequencing》

 

环状RNA结构与体外制备

大家不太熟悉RNA结构研究的话,可以阅读文章《Recent advances in RNA structurome“结构决定功能”,特别是要将mRNA2.0技术服务于临床医学,我们需要先对候选环状RNA进行解构。

 

环状RNA全长测序技术解决了得到环状RNA全长序列(即一级结构)的挑战,为后续环状RNA功能研究提供了结构基础,例如预测miRNA的结合位点、RBP的结合位点。然而,对更高级的环状RNA结构的解析,才利于预测环状RNA功能解析,例如实现分子docking。另外,环状RNA的体外制备需要对环状RNA结构进行解构,这已经被应用到反义环状RNA的设计与应用、环状RNA作为药物靶点、可翻译的环状RNA框架等多个领域。

 

技术服务 | circRNA体外制备

 

还不了解什么是环状RNA体外制备?那就先看看:
「挑战者circRNA」下一代RNA疗法新秀崛起
关于环状RNA在生物医学中的应用大家可以查看:
Cell综述 | 陈玲玲综述环状RNAs研究方法和应用
环状RNA二级结构的预测比较常用到的是RNAfold和Mfold,三级结构常用的工具有RNAcomposer(在线版本最长只能预测500nt)、3dRNA等,今年3月斯坦福大学团队更是推出了堪比AlphaFold的工具ARES来准确预测RNA三级结构。

另外,值得一提的是,我国在人工智能应用于生物医学的研究也走在了世界前沿。百度出品的深度学习算法LinearFold能准确预测RNA的二级结构,而5月2日公布的RNA序列设计软件LinearDesign更是登顶Nature。相信这些新的工具将会为环状RNA的研究注入新的活力,同时加速环状RNA在医药方面的开发。

Nature丨斯微生物与百度等单位跨界发表重磅文章:AI算法赋能mRNA序列设计,人工智能加速circRNA药物开发

 

环状RNA表达定量、标准化与差异分析

环状RNA相比线性分子mRNA和lncRNA更难定量。大量bulk RNA-seq数据显示,环状RNA只占整个样品文库的极少部分,其中间序列要受线性分子的影响,定量只能认准BSJ。因此,目前环状RNA定量最佳的建库策略应该是先通过RNase R等策略去除线性,只富集环状RNA分子。

 

产品推荐 丨RNA制备工具酶系列之RNase R

 

环状RNA定量工具已经被集成在识别工具中,一般这些工具最后会输出每个样品的reads count值,有些还会给出CPM(counts per million)等标准化后的值。环状RNA表达的标准化和线性分子没有区别,唯一需要注意的是,由于环状RNA表达很低,因此在进行差异表达前过滤时通常阈值比线性分子低,例如circRNA CPM>0.1。差异分析受表达量以及表达分布的影响,目前最常用于环状RNA差异表达的工具仍是edgeR与 DESeq2,当然也有另外一些新工具被开发出来,例如CircTest。到底哪种分析方法更适合环状RNA呢?今年1月,Brief in Bioinformatics发表的《Systematic benchmarking of statistical methods to assess differential expression of circular RNAs》对现有的一些差异分析方法进行了评估,有兴趣的童鞋可以看一看。

 

环状RNA功能预测

环状RNA功能的机制众多,大家最熟悉且研究最多的有三个:

作为miRNA的海绵

关于circRNA-miRNA互作的预测工具,当前大家还是习惯用于mRNA的预测工具,例如miRanda/TargetScan/RNAhybird等;一些工具进行了简单创新,对已有的软件和数据进行了整合,例如Circr整合了miRanda以及RNAhybrid以及AGO结合位点,CRAFT整合了miRanda和PITA以及AGO结合位点;也有一些应用了机器学习算法,例如基于深度的GCNCMI、NGCICM等。

与RBP互作

环状RNA的整个生命周期都有蛋白质的参与,且环状RNA也能通过与蛋白质互作发挥功能。然而,目前环状RNA与RBP的互作研究手段仍具有很大的局限性,可使用工具也比较有限。高通量测序中的RIP-seq和CLIP-seq能够捕获RBP结合的circRNA,针对这两种高通量数据,circRIP被开发出来用于环状RNA的挖掘。

另外,基于已有的研究信息,一些预测工具也被开发出来。catRAPID v2整合了大量环状RNA与RBP信息,是一款非常常用的在线circRNA-RBP预测工具;基于CLIP-seq以及机器学习的工具也频频出现,例如CRIP、CircSLNN、CCSCRSites、Clirc、circ-pSBLA、iCircRBP-DHN以及RBPsuite等,除了个别工具存在在线版本(例如RBPsuite)方便使用,其他工具使用难度都比较大,且RBP分子仅仅局限于37RBP(CRIP收集的CLIP-seq训练集)。

另外,通过circRNA pull-down+质谱的方法可能是一种更有效地方法研究某个环状RNA与哪些RBPs互作。

蛋白质翻译

虽然最初研究者将环状RNA定义为非编码分子,然而有许多环状RNA被预测可能翻译蛋白质。事实上,目前已经有超过40个人类环状RNA被报道能够翻译蛋白质且发挥功能。 

关于一个circRNA是否能够翻译,我们可以通过CPAT、CPC2等工具先进行翻译潜能预测;另外我们可以用ORFfinder进行ORF的识别。值得注意的是,环状RNA的ORF可能覆盖环化位点BSJ,因此在进行操作时可能需要重复最多4次序列以避免错过有效的ORF或无终止密码子的ORF。

 

环状RNA的翻译不依赖于帽子结构,被归为“非经典”的形式,目前已发现大约3种翻译机制,包括:

– IRES驱动

– m6A驱动

– 滚环翻译(无终止密码子)

 

而关于IRES的预测,常用的生信工具有VIPS、IRESfinder、IRESPred、IRESpy、CircPrimer以及DeepCIP;而m6A位点预测常常用SRAMP以及m6Apred;至于滚环翻译的驱动机制目前仍有待进一步研究,并没有相应的工具帮助识别该现象。

另外,Ribo-seq数据也可能存在环状RNA的序列片段,为翻译提供线索,我们可以通过CircPro、CircCode等工具识别潜在翻译的环状RNA;但Ribo-seq文库太短,很难捕获到环状RNA的信息,RNC-seq可能是一种更有效的手段。

目前我们对环状RNA功能认识仍然有限。虽然有 circFunDb等数据库收集环状RNA功能,但由于环状RNA数量太多且一般被作为调控分子,因此,目前仍未形成像Gene Ontology和KEGG那样系统的功能和通路数据库。所以,环状RNA关于功能和通路注释大多通过以下方式开展:

• 对circRNA来源基因(宿主基因)开展 GO/KEGG/……等注释;• 构建circRNA-miRNA-mRNA网络,通过mRNA来进行GO/KEGG注释;

• 对circRNA cis调控基因(许多文献非编码 RNAcis调控基因定义为基因组区域<10kb)进行GO/KEGG/……等注释;

• 对circRNA trans调控基因或表达相关基因进行 GO/KEGG/……等注释;

• ……

关于GO/KEGG/……注释以及富集的工具已经有很多了,但比较常用的可能还是R包 clusterProfiler、在线工具DAVID、在线工具 g:profiler等。

 

环状RNA实验验证

环状RNA的验证、过表达以及敲低实验关键是设计特异的环状RNA序列,主要包括环状RNA引物设计和siRNA设计。其中CircPrimer是一款 Windows版本的环状RNA引物设计工具,而 circInteractome针对circBase数据库中的环状 RNA进行了引物设计,同时circInteractome还包含了siRNA的信息。

 

环状RNA数据库

环状RNA研究十年间已经发表的数据库差不多有 60个,之前已经作了比较详细的总结,请查看:

十年环状RNA | 史上最全!数据库汇总

目前各个数据库并没有统一环状RNA的命名,且参考基因组版本也存在差异——大多数使用的是 hg19版本,有一些采用了hg38版本。对此,今年年初,陈玲玲等研究者就该问题给出了环状RNA命名规范的建议,这将有利于环状RNA社区间的交流。

NCB丨陈玲玲研究员等统一环状RNA命名规范,推动环状RNA研究交流和发展

环状RNA可视化工具

目前关于环状RNA可视化的工具并不多,主要集中在展示环状RNA与宿主间的关系:• Windows版本的CircView,用于展示环状RNA 的基因组序列结构,同时可以标注miRNA结合位点以及RBP结合位点;

• shiny版本的circASViewer,用于查看环状RNA可变剪切事件的小工具;

• shiny版本的circASViewerStatic,该工具与 circASViewer是姊妹工具,能够生成环状RNA可变剪切事件的静态图;

• Rcirc是一个R包,可以像IGV一样可视化环状 RNA的测序数据;

• 在线版本的circVIS主要展示环状RNA与宿主的关系,更像一个数据库(目前无法使用);

• ……

另外,如果要绘制环状RNA与其他分子的互作图,Cytoscape软件是大家的首选。

 

尾声:一图胜千言

下图对文章原文提到的工具进行了概述,分别从环状RNA研究热度、识别工具、数据库和下游分析工具4个方面以及时间轴等多个维度对环状 RNA生物信息工具进行了总结。

 

  

各位看官在环状RNA研究中都用到过哪些工具呢?欢迎留言讨论~

]]>
//www.xjpih.com/?feed=rss2&p=9789 0