领略高端套路,发表高分文章!
小伙伴们大家好,我是菠小萝。今天为大家解析一篇2021年发表在《frontiers in Endocrinology》(最新影响因子:5.555)上的非肿瘤方向生信文章,范文中用到了大家可能不太熟悉的The Global Burden of Disease(GDB)数据库。题目是“Estimates of Type 2 Diabetes Mellitus Burden Attributable to Particulate Matter Pollution and Its 30-Year Change Patterns: A Systematic Analysis of Data From the Global Burden of Disease Study 2019”[1]。感谢作者为我们提供了很好的学习典范!
在文章的末尾小编还对范文中用到的GDB数据库的应用进行了演示,帮助小伙伴们更好的学习。为苦于没有临床资料的小伙伴,或是正在烦恼没有新的数据信息还要发表出一篇有特色的非肿瘤方向的生信文章的你提供是如果自己作图时如何能够使文章更加丰满~如何提升文章质量~相信读到最后的小伙伴们一定会有更多收获的!
期刊简介
研究背景
越来越多的证据表明,空气污染也是2型糖尿病的一个风险因素,并可能影响其预后,甚至增加死亡风险。空气污染也被列为各种疾病的风险因素之一,由空气中的气体和不同颗粒组成,其中细颗粒物(PM 2.5)污染占公共卫生影响的>90%。在先前的研究中已经证实了环境PM 2.5污染和2型糖尿病之间的联系。《2017年GDB(GBD)研究》将室外和室内PM 2.5污染列为2型糖尿病的风险因素。然而,没有研究调查可归因于PM 2.5污染的2型糖尿病的流行病学模式。因此,基于GBD2019年的最新数据和改进的方法,作者估计了与PM 2.5相关的2型糖尿病发生的时间趋势,并确定了高度受影响的区域,为辅助决策和建议减少空气污染及其相应疾病负担的行动提供了见解。
数据库简介
本篇范文主要应用了GDB数据库,该数据库得到了世界银行的支持,由哈佛大学公共卫生学院和世界卫生组织的专家会同全球100多位学者历经五年多的时间进行的全球疾病负担研究数据构成。GBD研究对204个国家和地区的329种疾病的健康损失进行了全球综合评估,这些疾病根据流行病学相似性和地理邻近性分为21个区域,并根据社会人口指数(SDI)分为5组;低、低-中、中、高-中和高SDI。各国的空间数据基础设施是根据经济增长、生育率和教育程度估算的。这次研究成功地评估了1990年全球疾病模式,并预测了2020年的疾病负担。
GDB数据可供全球研究人员和决策者免费使用。可以从GBD数据可视化和GHDx、IHME的目录中下载所有全球、区域、国家以及在某些情况下对最新的GBD疾病、伤害和风险因素风险的世界健康和人口数据。该数据库综合了来自多个来源的证据,并以定量数据描述人口健康及其决定因素。这些实践包括记录和共享数据输入、分析和方法以及结果。
我们可以使用GHDx中的GBD数据输入源工具,找到我们需要的GBD数据输入信息。这些数据允许用户根据各种标准进行数据,并导出结果。包括参考信息,代表的人口、性别和年龄范围,以及相关的样本量。所有列出的输入源都在GHDx中有编目及原始数据集链接。另一个工具GBD Compare可让用户以更直观的方式探索结果,例如通过对比国家,查看健康状况如何随时间变化。下面我们就来学习一下,如何利用这样一个数据库发一篇非肿瘤方向的生信文章吧~
该数据库的网址为:http://ghdx.healthdata.org/
下拉页面有快速访问模块,下图中标红的模块是比较常用到的。
从首页的“Results”选项中可以直接进入“GDBResultsTool”界面,对数据库包含的数据进行下载、分析及可视化等。
随后,进入如下分析界面,可以进行数据分析,在文章的末尾会为小伙伴们进行更加详细的讲解。
数据来源&思路框架
本篇范文数据来源于The Global Burden of Disease(GDB)。包含的所有数据均可通过全球健康数据交换查询工具(http://ghdx . Health Data . org/gbd-results-tool)访问。
这项研究评估了1990-2019年可归因于PM 2.5污染的2型糖尿病的时间趋势,包括环境PM 2.5污染(APMP)和家庭空气污染(HAP)。范文基于数据来自2019年GDB研究,并按年龄、性别、年份和地点进行分析。Joinpoint回归分析被应用于分析过去30年2型糖尿病的时间趋势。
通过数据分析能够获得2019年在全球范围内, PM 2.5污染导致29.25万人死亡,1,300万人残疾调整生命年(DALYs)。可以分析2型糖尿病发病率从1990年开始的变化趋势,以及导致该病的风险因素。并且能够对比分析同期各种风险因素的影响及这些风险因素影响疾病的变化趋势。由此得出导致2型糖尿病死亡和生命年数最多的因素的亚型。下面我们就来一起学习这篇文章吧~
数据精析
部分:数据统计分析致病因素
范文的第一部分,作者利用了GDB数据库中记录的全球共6630万伤残调整生命年(DALYs)和150万2型糖尿病死亡数据。其中DALY代表疾病死亡损失的健康生命年和疾病伤残损失的健康生命年相结合的指标,是生命数量和生活质量以时间为单位的综合性指标。这些数据涵盖了17个危险因素,作者将1990-2019年的所有数据进行统计分析,将各种因素的数据分析结果展示于表1。
表1:统计1990-2019年全球PM 2.5污染导致的2型糖尿病负担
其中高体重指数对2型糖尿病总死亡和总DALYs的贡献分别为42.6%和51.9%。然而,PM 2.5污染占总死亡人数的19.9%和19.6%的2型糖尿病的残疾,其中名为“导致总死亡人数的13.4%和13.6%的残疾和偶然导致总死亡人数的6.5%和5.9%的残疾。这两个危险因素对公共卫生构成了巨大挑战。更具体地说,2019年,APMP导致全球19.68万(136.3-258.4)例2型糖尿病死亡和900万(6.1-12.2)DALYs(表1)。2019年有9.5万(60.5至138.5)例死亡和390万(2.4至5.9)残疾调整生命年。APMP导致的2型糖尿病的年龄标准化死亡率和DALY率分别为2.5/100,000(1.7至3.2)和109.0/100,000(74.1至147.2),是2019年HAP导致的2型糖尿病年龄标准化死亡率的两倍多。
最终得出2019年2型糖尿病的全球负担可归因于PM 2.5污染的结论。
部分:分析影响2型糖尿病病负荷的时间趋势
在确认了2019年2型糖尿病的全球负担可归因于PM 2.5污染后,回答了一个“是什么?怎么样?”的问题。那么,文章的第二部分就是对该因素进行进一步分析,要回答一个“怎么样?”的问题。于是,作者即分析影响2型糖尿病病负荷的时间趋势。
自1990年以来,由于APMP和甲型肝炎病毒暴露导致的2型糖尿病死亡和生命年数显著增加,但由于这两个风险因素导致的年龄标准化死亡率和DALY率呈现不同的趋势。如图1所示,可归因于APMP的2型糖尿病ASDR糖尿病随着APC的不同而增加,最显著的增加发生在2011年至2014年之间(APC = 2.31%,p < 0.05)。从1990年开始,不同APC的年龄标准化DALY比率也迅速上升,2019年达到大约两倍的负担,最显著的增长是在2017年至2019年之间(APC=2.91%,p < 0.05)。对于HAP,1990年至2005年,2型糖尿病的ASDR稳步下降,然后经历了显著下降,直到2019年,APC为2.81% (p < 0.05)。同样,2005年至2019年,2型糖尿病的年龄标准化DALY率显著下降(2005–2014年:APC = 2.68%,p < 0.052014–2019年:APC = 2.38%,p < 0.05)。
最终得出影响2型糖尿病病负荷的时间趋势的因素同样是PM 2.5污染的结论。
图1:从1990年到2019年,所有年龄段男女合计的可归因于PM 2.5污染的全球2型糖尿病负担的时间趋势。
图1其实是一套Joinpoint线性回归模型展示图,应用于分析过去30年2型糖尿病负担的时间趋势。Joinpoint线性回归,又称片段回归(piecewise regression),线段回归(broken-line)或多阶段回归(multi-phase regression)。是Kim在2000年提出的,其基本思路是将一个长期趋势线分成若干段,每段用连续性的线性进行描述。常用的线性模型只能描述或预测一种趋势,时间序列模型也存在许多局限性。而该型对数据序列本身是否存在趋势等并没有严格要求,近年来越来越多的被研究者用来确定疾病的变化趋势分析。
下面小编来为大家详细讲解一下这一回归分析的原理。Joinpoint 回归模型是用Z检验进行分段点的假设,其原理为首先假设无任何分段点,即H0:分段点为0个,此时可以采用传统的线性回归进行分析;H1:分段点至少存在1个。若拒绝H0,则再进行检验1个分段点与n个分段点差异是否有统计学意义,以此类推。Joinpoint 回归模型可以使用专门的统计软件Joinpoint Regression Program,操作比较方便,导入数据就能分析出结果。
如范文图1A示,就是用该软件分析后所得结果,可发现4个Joinpoints,将整个长期趋势线分成5段。因为Joinpoint回归模型是通过模型拟合把趋势变化分成若干有统计学意义的趋势区段,因此这种数据处理的方式分段比人为分段更加合理。通过分段后研究者可以清晰的看出上升段、快速上升段、平缓段、下降段和快速下降段。进而可以推测疾病发生率增长的速度。
图1A
部分:二变量分类统计分析
在回答了“是什么?”,“怎么样”的问题之后,需要进行更深入的研究,即是那些方面导致了这个事件的发生,也就是进行各因素的亚类组别分析。简单来说就是对各个因素进行二分类变量的统计分析。
1

年龄和性别特异性
图2即展示了自1990年以来,所有年龄组的糖尿病都出现了显著增加,而HAP引起的负担仅在老年人中增加,在<49岁的人群中保持稳定。在性别的亚组分析中,男性因PM 2.5污染导致的2型糖尿病总负担高于女性,而不同年龄的APMP和HAP的负担分布在女性和男性之间相似。对于男性和女性来说,APMP和高血压导致的2型糖尿病死亡率随着年龄的增长而增加,在80岁以上的人群中达到峰值,而DALY的死亡率在75-79岁的人群中最高。
最终得出年龄和性别特异性是PM 2.5污染的2型糖尿病负担的终要因素。
图2:2019年不同性别和年龄人群的2型糖尿病负担
2

区域和国家特异性
从区域来看,图3展示了由于2019年接触APMP,撒哈拉以南非洲南部的年龄标准化DALY和2型糖尿病死亡率最高。然而,自1990年以来,由于APMP的原因,南亚的2型糖尿病年龄标准化DALY率增加最多,而中亚的ASDR增加最多。相比之下,展示了在过去30年中,高收入的北美、西欧和澳大拉西亚的可归因年龄标准化死亡率和2型糖尿病的DALY率显著下降。图4展示了与其他国家相比在国家一级,1990年APMP导致的2型糖尿病的年龄标准化死亡率和DALY率在卡塔尔最高,而截至2019年,巴林的比率最高,其次是卡塔尔。
对于年龄标准化而言,图3展示了2019年芬兰的2型糖尿病ASDR发病率最低,冰岛的年龄标准化DALY发病率最低。就HAP而言,2019年年龄标准化DALY和2型糖尿病死亡率在大洋洲最高,是东撒哈拉以南非洲的两倍多,该地区因HAP而出现第二高的年龄标准化负担。图4展示了在全国范围内,基里巴斯显示了1990年和2019年最高的可归因于甲型肝炎的年龄标准化DALY和2型糖尿病死亡率。
最终得出区域和国家特异性是PM 2.5污染的2型糖尿病负担的终要因素。
图3:2019年可归因于PM 2.5污染的2型糖尿病的年龄标准化DALY比率,以及1990年至2019年间不同性别的21个GBD地区的比率百分比变化。
图4:2019年204个国家和地区PM 2.5污染导致的2型糖尿病年龄标准化DALY率。
部分:由于PM 2.5污染导致的2型糖尿病负担与社会人口指数(SDI)的关系
二变量分类统计结果找到了具有强影响力的亚族变量后,“靠”临床意义这一步其实并没有完全结束,还需要进一步分析疾病有何影响力。而疾病与人口的关联性就可以间接提示这一意义。于是,作者选择将疾病与社会人口指数(SDI)进行相关性分析。由于PM 2.5污染的2型糖尿病的年龄标准化死亡率和DALY率在空间数据基础上有很大差异。图5即展示当SDI < 0.6时,APMP导致的2型糖尿病的年龄标准化死亡率和DALY率增加,然后随着SDI的增加而减少,这表明SDI中等的国家负担最重。相比之下,可归因于HAP的年龄标准化死亡率和DALY率随着SDI而稳步下降,这表明SDI较高的国家显示出较低的负担。
图5:21个地区中可归因于PM 2.5污染的2型糖尿病负担与SDI之间的关系。
GDB数据库应用
首先,进入分析界面,可以通过如下图所示的选项进入,或者直接进入文中给出的链接:
http://ghdx.healthdata.org/gbd-results-tool
我们按照原文选择“select only GDB regions”,如下图。但是这样选择会得到45个结果,我们下拉到最后,会发现勾选了很多其他内容,我们将下图展示的其他内容均取消选中。最后,就保留了范文中的21个注意地区。
或者我们也可以直接输入需要的项目。
随后还需要选择性别和“SDI rank”,如下图。
选择年份:1990-2019年。
选择统计的疾病病因,范文研究的是“global type2 diabetes mellitus burden at tribute able to particulate matter pollution”。这里我们可以输入关键词“diabetes”,然后选择2型糖尿病。
最后我们选择的内容与原文一致:
下拉可以看到以表格形式呈现出我们所勾选的内容。
下拉界面可以显示我们勾选部分的内容可视化后的图形。
点击下载“.csv”格式文件。
接下来我们会通过邮箱查看下载的进度,并接收到包含结果文件的压缩包。
我们可以利用以上数据整理后,使用R进行统计分析及模型构建等。还有更多的功能等待小伙伴们挖掘~
范文总结
本篇范文利用来自2019年全球疾病负担的数据进行研究,将数据按年龄、性别、年份和地点分析了所有疾病负荷,以确定PM 2.5污染对2型糖尿病的影响。当比较不同时期的不同人群或同一人群时,我们使用死亡和残疾调整寿命年数的ASR来消除人口结构差异造成的影响。所有病例及其对应的每100,000人中的ASR均以95%的不确定性区间(UIs)报告。随后,作者使用R(3.5.2)分析以上数据。Joinpoint回归模型是一组统计线性模型,用于评估年龄标准化死亡率和DALY率的时间趋势。趋势的变化是通过在“Joinpoint”以对数标度连接几条线段并确定趋势线性斜率随时间显著变化的点来描述的(13)。使用美国国家癌症研究所监测研究项目的Joinpoint软件(版本4.7.0)进行Joinpoint回归分析。还计算了年度百分比变化及其95%的置信区间。用0.05的显著性水平估计p值。
结果发现APMP在所有风险因素中排名第三,导致2型糖尿病负担从1990年开始增加,而同期HAP的影响显著下降。APMP和HAP是导致老年人2型糖尿病死亡和生命年数最多的两个因素。然而,在中等社会人口指数国家的男性和人群中,尤其是在撒哈拉以南非洲南部,可归因于APMP的2型糖尿病的年龄标准化死亡率和DALY率更高。就澳大利亚糖尿病协会而言,女性的2型糖尿病负担略高,大洋洲最高,这是唯一一个自1990年以来有所增加的地区。
小编带大家全面的分析了这篇利用GDB数据库发表的非肿瘤方向生信文章,今后小伙伴们也可以挖掘更多的非肿瘤数据库。感兴趣的小伙伴可以多多关注挑圈联靠,挖掘更多的分析方法呢!再见啦!拜拜!
参考文献
[1]Wu,Y.,Fu,R.,Lei,C.,Deng,Y.,Lou,W.,Wang,L.,Zheng,Y.,Deng,X.,Yang,S.,Wang,M.,Zhai,Z.,Zhu,Y.,Xiang,D.,Hu,J.,Dai,Z.andGao,J.EstimatesofType2DiabetesMellitusBurdenAttributabletoParticulateMatterPollutionandIts30-YearChangePatterns:ASystematicAnalysisofDataFromtheGlobalBurdenofDiseaseStudy2019.FrontiersinEndocrinology,12,995(2021-August-132021).
通讯作者代志军教授简介
浙江大学医学院附属第一医院主任医师,博士生导师,博士后合作导师,浙江大学临床名师计划引进人才。中华预防医学会循证医学分会方法学组副组长,中国医促会循证医学分会委员,中国抗癌协会整合肿瘤专业委员会委员,浙江省数理医学学会循证医学专委会主任委员,生物大数据专委会副主任委员以及多个学会常委或委员,Cancer Medicine、World J Gastroenterol等国际期刊编委,国际知名期刊Cancer、Cancer letters、Breast Cancer Res Treat、DNA and Cell Biology、Cancer Cell Int等20余种SCI杂志审稿人。近年来在国内外知名期刊发表论文120余篇,其中SCI收录90余篇,中英文被引共计>3000次。目前主持国家自然科学基金2项、省市各级课题多项。获国家发明专利授权5项,获省部级科学技术奖4项。
代志军教授主要研究方向为:
(1)肿瘤生物靶向治疗基础;
(2)肿瘤临床流行病学。
代志军教授团队常年招聘博士后工作人员,待遇优厚,详情也可查阅浙江大学医学院招聘网站,欢迎感兴趣的研究人员应聘。应聘者请将个人申请材料发送至:[email protected],并将主题注明"博士后申请+姓名"。
往期传送门
重磅最新消息!DeepMind首次突破蛋白折叠的历史难题,这项AI技术能否成为生信领域的下一匹黑马?
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
END

撰文丨菠小萝
排版丨四金兄
主编丨小雪球
继续阅读
阅读原文