1. 引言
结直肠癌(colorectal cancer, CRC)是世界上第三大常见恶性肿瘤和第二大致死性癌症,2020年全球约有190万结直肠癌发病病例和90万结直肠癌死亡病例[1]。结直肠癌的致病原因主要与遗传因素、饮食习惯、生活方式、环境因素以及生活方式有关[2]。
CRC早期患者缺乏明显且特异的临床特征[3]。1968年,Wilson和Ungner就针对CRC的筛查提出了重要的10项原则[4],同时Dobrow等[5]针对肿瘤筛查工作进行了总结和回顾,进一步衍生出了肿瘤筛查12项原则。一些研究表明,与未接受筛查的患者相比,接受筛查的患者死亡率更低[6]。目前,临床上主要的筛查方式有愈创木脂粪便潜血检测(fecaloccult blood tests, FOBT)和软式乙状结肠镜检查(FS),已有的研究表明筛查方法具有一定的效果,gFOBT这种化学检测在筛选无症状的可能患癌人群中的敏感性很低[7]。但FS筛查有潜在的危害,例如穿孔、大出血和轻微出血,以及手术或后续结肠镜检查导致的死亡[7]。近年来,有较多文献报道,生物标志物对不同恶性肿瘤的辅助诊断与鉴别方面有重要应用价值。在众多学者过去的工作中,已鉴定出许多结直肠癌的生物标记物,如CA199、PS、TAG-72和CEA等[8]。但是结直肠癌的高死亡率表示仍需要更多的高可靠性的生物标记物来给予CRC患者更精确的诊断与更好的治疗。
趋化因子是一种很小的可溶性蛋白分子,介导各种生物过程,可诱导多种类型的细胞进行趋化[9]。人类所表达的趋化因子多达50多种,根据其两个保守的N-末端半胱氨酸残基位置可将其分为CC、CXC、CX3C和C四个家族。趋化因子3 (Chemokines 3, CXCL3)属于CXC趋化因子家族的单链蛋白[10]。田雨、Cui C等多位学者通过生物化学分析发现趋化因子CXCL3可能是早期CRC的诊断与预后的关键基因[11]。同时据报道CXCL3及其相关基因可能是一种新的诊断和预后的生物标志物[12]。虽然通过研究,CXCL3与结直肠癌之间的关系得到了一定肯定[13],但CXCL3的具体关系并未全部研究清楚。
本研究探究趋化因子CXCL3在结直肠癌中的临床价值。对TCGA (The cancer genome atlas)结肠腺癌数据库(Colon adenocarcinoma, COAD)数据进行提取,通过使用R语言进行数据处理并综合分析,确定趋化因子CXCL3表达水平在COAD癌旁组织(Normal)和肿瘤组织(Tumor)中的表达量差异,分析趋化因子CXCL3对于COAD的诊断的研究价值,绘制Kaplan-Meier (KM)生存曲线分析CXCL3的表达水平与CRC患者预后的相关性,GO功能富集分析和KEGG通路富集分析探索CXCL3在CRC中的潜在的功能及信号通路。同时使用GEO数据库(Gene Expression Omnibus data base)验证CXCL3在CRC中表达量。本研究通过分析CXCL3在结肠腺癌中的临床价值,为结肠癌的诊断、治疗、预后提供可靠依据。
2. 资料与方法
2.1. 数据来源
研究所用的数据集来自美国国家癌症研究所(National Cancer Institute, NCI)的TCGA数据库结肠腺癌项目(COAD) (https://portal.gdc.cancer.gov/),包含453个结肠腺癌组织样本(tumor)和41个正常组织样本(normal)。验证所用数据集来自美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)的GEO数据库中的GSE39582 (https://www.ncbi.nlm.nih.gov/geo/),包含566个结肠腺癌组织样本和19个正常组织样本。表达谱矩阵为RNA-seq数据。使用R (version 4.3.2)及R软件包分析与处理。
2.2. 表达量分析
在R软件包中,针对CXCL3基因在结直肠组织样本和正常组织样本中的不同表达量,利用R包ggplot2绘制箱线图,利用R包ROC绘制受试者工作特征(Receiver Operating Characteristic, ROC)曲线,并计算ROC曲线下面积(Area Under Curve, AUC)评判其诊断效能。
2.3. 相关性分析
在TCGA数据库中,使用spearman算法将CXCL3与其他编码基因批量做相关性分析,设置阈值p < 0.05进行筛选后,分别选取相关性系数最高(正相关)和最低(负相关)的十个基因进行绘图。利用R包pheatmap绘制热图。
2.4. 功能富集分析
对相关性分析得到的基因进一步筛选,取相关性系数绝对值前200个基因(p < 0.05)。将这批基因在DAVID平台(https://david.ncifcrf.gov/)进行基因本体论(Gene Ontology, GO)和京都基因及基因组百科全书 (Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析。其中GO包括生物学过程(Biological Processes, BP)、细胞成分(Cellular Components, CC)和分子功能(Molecular Functions, MF),可视化采用R包ggplot2。
2.5. 基因表达水平验证
在GEO数据库(GSE39582)中,利用R包ggplot2绘制CXCL3基因在结肠腺癌组织样本和正常组织样本中表达量的箱线图,并绘制其对应的ROC曲线、计算AUC值。计算其他基因与CXCL3的相关性,并进行初步筛选,并绘制热图。进一步筛选CXCL3共表达基因,在DAVID平台进行富集分析,将所得到的结果与TCGA数据库的结果进行比较,作为实验结果的验证。
2.6. 患者资料分析
在TCGA数据库中,根据CXCL3在结肠腺癌组织中相对表达量的中位数为界,分成高表达组(H-CXCL3, n = 246)和低表达组(L-CXCL3, n = 246)。依据患者生存情况进一步分为存活组(Alive)和死亡组(Dead)。与年龄、性别、肿瘤分期、肿瘤浸润深度、淋巴结转移情况和远处转移情况等临床病理因素进行分析比较,并绘制成表格。
3. 结果
3.1. 表达量分析
在TCGA数据中将CXCL3基因两组中的表达差异绘制成箱线图(图1(A))。结果显示CXCL3基因在结肠腺癌组织中显著高表达(p < 0.05)。采用ROC曲线评判其诊断效能,曲线下面积AUC为88.4% (图1(C))。选择GEO数据库中与结肠腺癌相关数据集GSE39582进行外部验证。结果显示CXCL3基因在结肠腺癌组织中显著高表达(p < 0.05) (图1(B)),ROC曲线下面积AUC为91.7% (图1(D))。这表明CXCL3基因有成为结肠腺癌潜在标志物的可能。
A为TCGA数据库中CXCL3在正常组织和结肠腺癌组织的表达差异箱线图;B为GEO数据库验证CXCL3在正常组织和结肠腺癌组织的表达差异箱线图;C为TCGA数据库CXCL3表达差异的ROC曲线;D为GEO数据库验证CXCL3表达差异的ROC曲线。
Figure 1. CXCL3 expression difference and ROC curve
图1. CXCL3表达差异与ROC曲线
3.2. 相关性分析
在TCGA数据库中,经过筛选后的CXCL3相关基因绘制出热图(p < 0.05),结果显示CXCL3及其正相关基因在结肠腺癌组织样本中表达量明显高于正常组织样本,负相关基因的结果与之相反(图2(A))。在GSE39582数据库中进行验证,CXCL3及其正相关基因表达关系同数据组(图2(B))。此结果证明CXCL3基因可以作为有效的结肠腺癌诊断标志物。
A为TCGA数据库中CXCL3共表达基因集表达差异的热图;B为GEO数据库验证CXCL3共表达基因集表达差异的热图。
Figure 2. Heat map of CXCL3 co-expressed gene set expression differences
图2. CXCL3共表达基因集表达差异的热图
A为TCGA数据库下BP、CC、MP前5个富集条目气泡图和KEGG通路前5个富集条目柱状图;B为GEO数据库验证BP、CC、MP前5个富集条目气泡图和KEGG通路前5个富集条目柱状图。
Figure 3. GO and KEGG enrichment analysis
图3. GO和KEGG富集分析
3.3. 功能富集结果
在TCGA数据库中将相关性分析分析得到的200个基因进行GO功能富集分析,结果显示其主要参与的生物学过程有细胞分裂、有丝分裂细胞周期、染色体分离、有丝分裂纺锤体组装检查点和细胞周期等,KEGG富集结果显示其参与的主要通路为细胞周期、IL-17信号通路、类风湿性关节炎、黄体酮介导的卵母细胞成熟和TNF信号通路等(图3(A))。
在GSE39582数据库中进行结果的验证,结果显示其主要参与的生物学过程同样有细胞分裂和有丝分裂纺锤体组装检查点,KEGG富集结果中同样有细胞周期、IL-17信号通路、TNF信号通路和类风湿性关节炎等(图3(B))。
3.4. 患者资料分析
通过将CXCL3的表达量与患者临床病理因素结合分析,可见CXCL3高表达组相较于低表达组更容易进入肿瘤II期、肿瘤浸润深度T3期、淋巴转移情况N0期,肿瘤远处转移M0期且死亡率更高(表1)。结果可知高表达的CXCL3对患者的危害性更强,致死率更高。
Table 1. Comparison of clinicopathological factors between high and low groups of CXCL3 expression in colon adenocarcinoma
表1. 结肠腺癌中CXCL3表达量高低分组的临床病理因素比较
Clinical Parameters |
H-CXCL3 |
L-CXCL3 |
Alive (N = 202) |
Dead (N = 44) |
Alive (N = 177) |
Dead (N = 69) |
Age |
|
|
|
|
Mean (SD) |
67.4 (12.2) |
69.8 (12.9) |
65.3 (13.8) |
70.7 (13.0) |
Median [Min, Max] |
68.0 [34.0, 90.0] |
73.5 [40.0, 90.0] |
67.0 [31.0, 90.0] |
74.0 [34.0, 90.0] |
Gender |
|
|
|
|
female |
92 (45.5%) |
18(40.9%) |
90 (50.8%) |
33(47.8%) |
male |
110 (54.5%) |
26 (59.1%) |
87 (49.2%) |
36 (52.2%) |
Tumor stage |
|
|
|
|
I |
46 (22.8%) |
2 (4.5%) |
27 (15.3%) |
4 (5.8%) |
II |
90 (44.6%) |
14 (31.8%) |
75 (42.4%) |
19 (27.5%) |
III |
51 (25.2%) |
11 (25.0%) |
48 (27.1%) |
23 (33.3%) |
IV |
11 (5.4%) |
15 (34.1%) |
25 (14.1%) |
19 (27.5%) |
NA |
4 (2.0%) |
2 (4.5%) |
2 (1.1%) |
4 (5.8%) |
Pathologic T |
|
|
|
|
T1 |
7 (3.5%) |
1 (2.3%) |
2 (1.1%) |
1 (1.4%) |
T2 |
43 (21.3%) |
2 (4.5%) |
32 (18.1%) |
5 (7.2%) |
T3 |
142 (70.3%) |
33 (75.0%) |
117 (66.1%) |
45 (65.2%) |
T4 |
9 (4.5%) |
8 (18.2%) |
26 (14.7%) |
18 (26.1%) |
NA |
1 (0.5%) |
0 (0%) |
0 (0%) |
0 (0%) |
Pathologic N |
|
|
|
|
N0 |
143 (70.8%) |
18 (40.9%) |
106 (59.9%) |
27 (39.1%) |
N1 |
41 (20.3%) |
10 (22.7%) |
40 (22.6%) |
19 (27.5%) |
N2 |
18 (8.9%) |
16 (36.4%) |
31 (17.5%) |
23 (33.3%) |
Pathologic M |
|
|
|
|
M0 |
165 (81.7%) |
24 (54.5%) |
133 (75.1%) |
36 (52.2%) |
M1 |
11 (5.4%) |
15(34.1%) |
25 (14.1%) |
19 (27.5%) |
NA |
26 (12.9%) |
5 (11.4%) |
19 (10.7%) |
14 (20.3%) |
4. 讨论
CXCL3是趋化因子CXC家族中的一员,是一种非常强大的中性粒细胞的趋化剂[13]。CXCL3通过G蛋白偶联受体CXC受体2 (CXCR2)发出信号并与之结合结促进其向肿瘤微环境的迁移,从而参与肿瘤的生长、增殖、转移和血管生成[14]-[16]。Xiong、Ruan等人的研究也表明,CXCL3高表达与CRC患者低OS (Overall survival, OS)关[17],且高表达的CXCL3与结肠癌患者的OS时间缩短有关[18]。由此可见趋化因子CXCL3高表达与CRC患者的总生存时间缩短,由此可见CXCL3是一种极具研究价值的生物标记物。
本研究通过对CXCL3在tumor组和normal组的差异分析,发现CXCL3基因在结肠腺癌组织中显著高表达(p < 0.05),这表明CXCL3基因有成为结肠腺癌潜在标志物的可能。对CXCL3进行相关性分析,提取相关性系数绝对值前200个基因(p < 0.05)并进行GO功能富集分析。结果显示其主要参与的生物学过程有细胞分裂、有丝分裂细胞周期、染色体分离、有丝分裂纺锤体组装检查点和细胞周期等,与肿瘤细胞的发展密切相关[18]。KEGG富集结果显示其参与的主要通路为IL-17信号通路,有研究表示,其与CRC发展密切相关[19]。TCGA数据库的热图结果显示CXCL3及其正相关基因(CXCL1、CXCL2、ZC3H12A、CCL20、IL1A、LCN2、LIF、IER3、SAA2)在结肠腺癌组织样本中表达量明显高于正常组织样本,负相关基因(TMEFF2, OTOP3, CDH10, PLP1, ADCYAP1R1, MYOC, ATP1A2, MAB21L1, C2ORF40, LGI1)的结果与之相反。与田雨、Cui C、Ershov P等学者研究结果相似[11] [20] [21]。此结果证明CXCL3基因可以作为有效的结肠腺癌诊断标志物。然而,本研究中也有一定的局限性。本研究基于统计分析的方法,对临床数据进行分析与研究,但尚未进行临床试验的证实,因此仍需设计包含临床验证的实验探究来进一步增强结果的可靠性。
综上所述,本研究通过生物信息学的方法研究CXCL3及其相关基因进行综合分析,为CRC的早期诊断及其愈后提供一定参考。
基金项目
皖南医学院省级大学生创新创业训练计划项目(S202310368033)。
NOTES
*通讯作者。