146+72本期刊《SCI期刊分析+选刊网站》免费领
扫描下方二维码免费领取☟☟☟
酸菜曰:选分子如选妃,要综合考量
从小白能懂的角度,聊生信方方面面。大家好,我是解螺旋的雪球。做医学科研的小伙伴都知道分子的重要性。做一个完整的课题设计,就是在讲一个故事,完整的论证环节,环环相扣的剧情。大多数都是围绕分子变量展开,筛选出哪些变量标记哪些marker检测哪些指标与哪些通路和表型相关能否作为临床诊断和预后的指标。这些研究的背后,还是以分子作为研究的对象或者标记鉴别的标签tag。分子可以给课题带来变化,以分子为主要研究要素在多个维度进行分析和论证,是基础科研和生信领域研究的常规套路;不同的分子,用相同或者类似的研究套路,往往又是一个新的课题研究。
当然也有的科学研究,刻画的是分子的群像,或者是从细胞的层面进行论证,这些不在本期的讨论范围。今天我就和大家聊一聊科研老司机是如何检索不同分子类型的信息的
1.检索不同的分子类型的信息有必要吗?有什么用?
当然有必要!无论在基础科研和生信研究里,对于关键基因的信息检索都是有必要的。
基础科研分为五恒量和三变量:
五恒量包括疾病(Disease)、表型(Phenotype)、模型(Model)、检测方法(Assay)、分子标志物(Biomarker)。
三变量包括分子(Molecule)、药物(Drug)、通路(Pathway)。
从恒量研究的角度一项研究的特征是由表型来确定的,而表型又是通过检测分子标志物来鉴别细胞或者动物某种特点功能,从而用来描述发生在疾病背后的某种生理或者病理过程。分子及其分子集合可以作为表型描述的标签
从变量研究的角度,分子可以充当主变量和因变量的角色,可盐可甜。一个有创新性的分子主变量,哪怕用熟悉的套路,也往往能盘活整个课题,老瓶装新酒,作为一个新的故事来讲,也能卖得出去。如果作为课题研究的主变量,对分子创新性的检索就尤为重要。
同时,通路的识别也是依赖于其明星分子,对分子的检测也可以作为其通路是否参与调节的某表型或者疾病的论证证据。这时候需要借助通路相关数据库,检索通路上相关的明星marker。
生信研究两大作用,一个是筛分子,一个是筛机制,也有对应的恒量和变量体系。恒量包括疾病和问题,变量包括数据特征(数据来源、分子类型、实验方法)和分析策略(表达差异、聚类分析、交互网络、临床意义)。
生信分析是根据高通量分析、表型筛选、临床特征等筛选出一个有差异的分子集合;进一步对这些分子集合进行生物学功能和通路上的聚类,探究相关机制;再通过互作网络分析,筛选靶分子或者关键基因;最后可以和表型/临床相联系,预测关键分子与热点表型之间的联系,以及作为诊断/预后/复发biomarker的潜能。
筛选到的关键基因这么多,选哪几个作为后续验证的对象,这时候需不需要对分子的基本信息进行检索,再进一步手动筛选一下有创新性而且好验证出来的基因,这样就避免了盲筛,增加验证出来的概率。
2.如何进行分子筛选?
分子怎么得来的呢?酸菜大大教授了六个字,“要么猜要么筛”
就是查阅文献看其亚细胞定位分子结构域,看看新发表文献中的分子没在本领域发表过,从而找到1个或几个分子,再进行后续的湿实验验证;
就是用自己的样本做高通量筛选,或者用现有的公共数据库进行数据挖掘,得到一系列的差异基因list,然后根据差异基因的排序,从上往下再筛选一波。
酸菜大大在《36策》第8策去芜取精中传授了分子筛选的经验。
选择标准有三:
一、创新性
指的是疾病中这个分子没有被研究过;如果是比较庞大的肿瘤体系,可以适当放宽一下要求;比如你做肠癌,一般在其他肿瘤体系里面的报道总数不超过2篇的分子才可以入选。
二、关注分子的特征
关注分子的大小、结构域、细胞定位、表达分布、分子已知的功能、相似的蛋白家族的功能,包括分子有没有不同转录本等一系列背景。
三、利用数据库或者预实验做二次验证
分析分子在癌与癌旁中的表达分布情况,高低表达的分子在预后、诊断、复发中的表现情况,以及在qPCR实验中检测一下分子的表达情况。
3.如何检测不同分子类型的信息?
分子是一个统称,具体由很多不同类型的分子都可以作为研究变量,主要包括DNA、RNA和蛋白。其中RNA有编码基因的mRNA和非编码RNA,非编码RNA包括miRNA、lncRNA和circRNA等等。
我们依次介绍一下对应的数据库。
1
Pubmed (https://www.ncbi.nlm.nih.gov/)的Gene数据库(所有基因)
操作
在搜索栏的选项卡中选择Gene,在搜索栏输入基因名,或者直接输入“基因名 物种”或者利用PubMed右侧的Top Organisms选项筛选物种。选择对应的条目,可以进入该基因的信息页。
功能:
1)summary(基因相关信息简介):
基因的总体信息,包括官方名称,全程,主要来源,基因类型,物种,别名,家系、表达情况,直系同源。
2)基因组背景
可以查看这个基因在DNA水平染色体位置上的相关信息。同时也可以简单了解起上下游的基因。同时也可以查看在RNA水平上各个转录本的相关信息。
3)基因在各个组织中的表达情况和相关项目信息。
4)基因的文献发表信息
5)相关的表型情况
包括:相关的疾病信息;拷贝数变异以及 GWAS情况、变异相关信息、通路相关信息。
6)与检索基因有关的通路GO分析的结果
7)与之相互作用的分子信息
2

GeneCards数据库(https://www.genecards.org/)(所有基因)
参考解螺旋单元课《GeneCards》数据库
操作:
在搜索栏的选项卡中输入基因名,点击“GO”。
功能:
GeneCards是可检索的人类基因综合数据库。整合了超过150个外链数据库或网站的数据,其中125个网站数据自动同步更新,提供简明的基因组、蛋白质组、转录组、遗传和功能上所有已知的和预测的人类基因功能数据资料,并整理归纳成别名、疾病、结构域、药物、表达、功能、基因组学、定位、同源序列、旁系同源基因、通路、产品、蛋白、文献、资源、概述、转录本、变异等18类信息,是目前信息最全的基因注释网站之一。
3
UCSC Genome Binformatics数据库(http://genome.usce.edu/)(所有基因)
参考解螺旋免费课程/解螺旋出品/《优选365》中的1-2 UCSC数据库
操作:
首先选定物种和基因组版本,点击之后,进入新的页面。
在检索框中输入检索词,可以是基因位点(chr2:207,529,892-207,605,560),可以是基因名称(CERB1),可以是GeneBank ID,可以是其他任意词汇,如HCC(原发性肝癌)。输入词条之后,系统会自动补全,并显示下拉列表,可在下拉列表中选择符合要求的词条,点击Go。当键入的信息不完整时,搜索系统无法精确匹配,那么系统会自动跳转到可以部分匹配的列表里。可以在列表里进行进一步选择。
功能:
主要包含了人类、小鼠、果蝇等多种常见动物的基因组信息。UCSC里也包括了一系列的分析工具,帮助用户浏览基因信息、查看已有基因组注释信息和下载基因序列等。
4
Uniprot数据库(https://sparql.uniprot.org/)(蛋白质)
操作:在检索框中输入蛋白ID或者Accession Number查询蛋白功能。
功能:UniProt数据库是信息最丰富、资源最广的蛋白质数据库,提供蛋白质功能的相关检索,包括蛋白功能描述、GO条目、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点信息,以及每条信息来源对应的引用文献。
5

miRBase数据库(http://www.mirbase.org/)(miRNA)
参考解螺旋单元课《miRNA靶基因预测数据库使用教程》
操作:在检索栏中可以通过多种方式检索miRNA。
功能:miRBase序列数据库是一个提供包括miRNA序列数据、注释、预测靶基因等信息的全方位数据库,是储存miRNA信息最主要的公共数据库之一。可以检索miRNA前体对应的基因,序列,茎环结构等信息,以及miRNA前体产生的的成熟的miRNA序列和对应的靶标数据库。
6

NONCODE数据库(http://www.noncode.org/index.php)(lncRNA)
操作:在检索框中输入基因名或者转录本名称。
功能:是一个比较全面的ncRNA相关注释的数据库,该数据库中包含了除tRNA和rRNA之外的其他类型的非编码RNA信息,尤其是lncRNA信息,不仅支持常用lncRNA的name、NONCODE ID(例如:NONHSAG000001)搜索,部分lncRNA支持其他数据库名字进行搜索。该数据库目前收入了16个物种,数据库信息丰富,包括在不同组织和细胞系中的表达谱、二级结构、功能预测、与疾病关系、染色体位置、在不同物种间的序列保守性、相关疾病注释等,并可进行序列Blast搜索,同时支持数据下载。
7

circRNADisease数据库(http://cgga.org.cn:9091/circRNADisease/)(circRNA)
操作:分别可以按照circRNA, 热点基因,疾病进行搜索。选择检索的方式,点击对应的方框,进入检索栏,输入对应条目。
以circRNA为例,点击search by circRNA,进入检索框,输入第一个例子,circFoxo3。
得到该基因在不同疾病的研究情况。
点击details那里的more, 即可得到该基因在相应文献里的研究情况。
功能:数据库收录了48种疾病和330条circRNA,共有354条信息,数据库可以浏览、搜索和下载。提供cirRNA的基本信息,在疾病中的表达情况,相关的miRNA,以及发表这个基因在疾病中研究的相关文献报道等信息。
8

The Human Protein Atlas数据库(https://www.proteinatlas.org/)(蛋白质)
操作:在检索框中输入基因名称,点击Search
功能:用免疫检测技术(免疫印迹、免疫荧光和免疫组化),详细地检测了每一种蛋白在64个细胞系、48种人类正常组织和20种肿瘤组织中的表达情况,可以基因的描述(Gene description),证据评分(Evidence),以及该基因在各个图谱中的结果。图谱包括组织图谱(Tissue Atlas)、病理图谱(Pathology Atlas)、细胞图谱(Cell Atlas)、脑图谱(Brain Atlas),血液图谱(Blood Atlas),以及代谢图谱(Metabolic Atlas)。
9

Expression Atlas数据库(http://www.ebi.ac.uk/gxa/home)(所有基因)
操作:在检索框中,从左到右,分别输入基因名称,物种名称,以及疾病名称或者病灶的名称。
功能:可以用来查询基因、lncRNA、microRNA等分子在各种条件、各种疾病中的基础表达和差异表达。基础表达一般帮助我们选择研究功能的时候是用基因沉默还是过表达策略,如果本身表达低,我们就过表达,如果本身表达高,我们就沉默;而差异表达一般帮助我们选择研究的主变量。
10
人类疾病数据库MalaCards(http://www.malacards.org/)(针对疾病)
操作:在检索框中输入疾病的名称,点击Go
功能:
1)提供了多个数据库对于这个疾病的总结;
2)提供了疾病之间的相互作用关系网络;
3)提供了这个疾病相关的生物学功能/通路以及打分;
4)查找和这个疾病相关的差异表达基因和关键基因;
5)提供了该疾病中目前药物研究中重要有哪些重要的药物;
6)疾病相关发表的文献等
每个分子类型,每种检索的切入点,我仅列了一个代表性数据库,这样不代表没有列的数据库就用不到。这里给大家推荐这10种比较常用的检索不同分子类型信息的数据库。但是工具其实不是重点,因为工具经常会更迭的,不要背这些工具,把这些工具当作字典的目录来检索,用的时候差一查,或者就收藏一下挑圈联靠公号,关键词检索一下也立马能搜得到。
与工具相比,最重要的是学会从这几个分析维度,高效地检索到分子的检索信息,大家做实验的时候可以提前检索一下,应用到自己的研究当中,避免走弯路。
今天和大家就聊到这里。从小白能懂的角度,聊生信方方面面。我是解螺旋的雪球。我们下期再见~
往期回顾:
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
继续阅读
阅读原文