1. 背景
胰腺癌是人类常见肿瘤之一,其恶性程度高,虽然近些年随着综合治疗的改进,预后有一定改善,但其五年生存率仍低 [1]。根据世界癌症统计,2020年,全球胰腺癌新发病例约为495,773例,位列肿瘤发病的第14位,占所有肿瘤发病的2.6%,而同年胰腺癌死亡病例约466,003例,位列肿瘤相关死亡的第7位,占所有肿瘤所致死亡的4.7%。同年,中国胰腺癌新发病例约144,997例,占所有新发肿瘤的2.7%,位列肿瘤发病的第8位,死亡病例约为121,853例,占所有癌症相关死亡的4.1%,位列所有癌症相关死亡的第6位 [2]。而在美国,胰腺癌相关死亡更是位居癌症相关死亡的第4位 [3]。据统计,胰腺癌发病率及死亡率近些年来呈现出升高趋势 [4],这可能与肥胖、糖尿病、吸烟、饮酒等疾病升高相关。胰腺癌的高发病率和高致死率已严重威胁到人类的生命健康,为人类的健康、社会经济、医疗带来了极大的挑战。
LY6D (淋巴细胞抗原6家族成员D)是一种蛋白质编码基因,位于8号染色体2区4带3亚带,主要位于细胞的细胞膜 [5],可作为B细胞和T细胞发育早期淋巴细胞的特异性标记。LY6D与头颈部鳞状细胞癌 [6]、喉鳞状细胞癌 [7]、前列腺癌 [8]、乳腺癌 [9]、肺腺癌 [10] 的发病密切相关,与正常组织相比,LY6D在上述肿瘤组织中显著高表达,且高表达LY6D的肿瘤患者具有较差的预后。但LY6D在胰腺癌中的研究较少,因此,本研究旨在通过生信分析研究LY6D在胰腺癌发病中的表达情况、预后价值、潜在价值,并构建胰腺癌患者预后评估模型,用于指导临床决策。
2. 方法
2.1. 相关数据的检索和下载
本研究从肿瘤基因组图谱数据库(TCGA https://portal.gdc.cancer.gov/)中检索178例胰腺癌组织的mRNA序列数据和临床信息,将基因mRNA数据与来自TCGA数据库的相关临床病理数据进行整理,用于进行预后分析及构建预后评估模型。
2.2. 表达分析
使用Timer2.0 (http://Timer2.comp-genomics.org/) [11] 数据库评估基因LY6D在不同类型癌症中的表达情况。同时,下载GEO (https://www.ncbi.nlm.nih.gov/geo/)数据库中的GSE16515,GSE43795和GSE32676三个数据集来评估LY6D在胰腺癌中的表达情况,使用GEO 2R在线工具进行差异分析。同时使用在线网站人类蛋白质图谱(HPA: https://www.proteinatlas.org/) [12] 分析基因在蛋白水平的表达情况。
2.3. 基因突变分析
LY6D基因在胰腺癌患者中的突变的结果是在cbioportal在线网站上(https://www.cbioportal.org/) [13] 分析获取的,选取Pancreatic Adenocarcinoma (TCGA, PanCancer Atlas)研究的数据进行分析,选择其中具有突变和拷贝数数据的175例患者数据,同时LY6D基因突变组与未突变组患者在胰腺癌患者中关于总体生存率(OS)、无病生存率(DFS)、无进展生存率(PFS)和疾病特异性生存率(DSS)预后分析结果也是通过该网站分析获得。
2.4. 基因集富集分析
利用GSEA软件(4.1.0版)分析LY6D在胰腺癌患者中的潜在分子机制和信号转导途径。选择C2 (c2.cp.kegg.v7.4.symbols.gmt)和C5 (c5.go.bp.v7.4.symbols.gmt、c5.go.cc.v7.4.symbols.gmt和 c5.go.mf.v7.4.symbols.gmt)作为KEGG、GO BP、GO CC以及GO MF分析参考基因集。在GSEA分析中,使用TCGA数据库下载的胰腺癌患者表达矩阵文件,根据LY6D表达值进行分组进行富集分析,其余参数均选择默认设置。将P < 0.05并且错误发现率(FDR) q值 < 0.25定义为具有统计学差异。
2.5. 蛋白–蛋白相互作用(PPI)网络分析
应用STRING v.11 (https://string-db.org/) [14] 在线网站来分析LY6D相对应蛋白质的功能相互作用网络。检索与LY6D最密切相关的20个基因,用于构建PPI网络,所有设置均使用默认参数。
2.6. 生存分析
使用Kaplan-Meier Plotter (http://kmplot.com/analysis/index.php?p=service)在线网站 [15] 分析基因LY6D在胰腺癌患者中的预后价值。根据患者该基因表达值(LY6D:160)将患者分为高LY6D和低LY6D组用于构建KM生存曲线。
2.7. 预后模型的构建
风险评分等于所有基因mRNA表达值与相应的回归系数乘积之和(风险评分 = β1 × 基因1表达值 + β2 × 基因2表达值 + β3 × 基因3表达值) [16],根据风险评分的中值分将患者分为低风险组患者和高危组,log rank用于检验KM生存分析比较上述两组之间的生存差异,进行了TimeROC分析以比较LY6D及其相关基因的预测准确性和风险评分。最小绝对收缩和选择算子(LASSO)回归算法进行特征选择,采用10倍交叉验证。然后使用Spearman的相关性分析来描述模型风险评分与各种免疫细胞的相关性。
2.8. 统计分析
所有统计分析均使用R软件(版本4.0.2)。所有作图使用R软件(版本4.0.2)和graphpad prism软件(版本8.0.1)完成。P < 0.05定义为具有统计学意义。
3. 结果
3.1. LY6D在胰腺癌中显著上调
通过Timer2.0数据库检索LY6D在人体各种肿瘤组织中的表达发现,结果如图1(d)所示,与对应器官正常组织比较,LY6D在胰腺癌中表达显著上调,同时在BRCA、COAD、GBM、LUAD、LUSC、PRAD等肿瘤中明显高表达。同时,运用GEO (https://www.ncbi.nlm.nih.gov/geo/)数据库中的GSE16515,GSE32676,以及GSE43795三个数据集分析LY6D在胰腺癌中的表达,结果如图1(a)~(c)所示,三个数据集中均提示LY6D在胰腺癌肿瘤组织中明显高表达。通过Kaplan-Meier Plotter数据库分析LY6D表达对胰腺患者预后的影响,结果如图5(a)、图5(d)所示,在OS以及DFS中LY6D高表达组较LY6D低表达祖预后均较差。
3.2. LY6D基因突变胰腺癌患者具有较差预后
通过cbioportal网站分析显示,LY6D基因在胰腺肿瘤中的突变包括扩增和深度缺失,其中扩增为主,根据突变与未突变分组进行生存分析提示,在OS、DFS、PFS中,未突变组患者预后均明显优于突变组患者,在DSS中,两组患者预后无明显差异,提示LY6D在胰腺癌中的突变严重影响患者的生存预后(图2)。
注:*:p-value < 0.05;**:p-value < 0.01;***:p-value < 0.001。ACC:Adrenocortical Carcinoma (肾上腺皮质癌);BLCA:Bladder Urothelial Carcinoma (膀胱上皮癌);BRCA:Breast Invasive Carcinoma (乳腺癌);CESC:Cervical and Endocervical Cancer (宫颈癌);CHOL:Cholangiocarcinoma (胆管癌);COAD:Colon Adenocarcinoma (结肠癌);DLBC:Diffuse Large B-cell Lymphoma (弥漫性大b细胞淋巴瘤);ESCA:Esophageal Carcinoma (食管癌);GBM:Glioblastoma Multiforme (多形性胶质母细胞瘤);HNSC:Head and Neck Cancer (头颈癌);KICH:Kidney Chromophobe (肾嫌色性细胞癌);KIRC:Kidney Renal Clear Cell Carcinoma (肾透明细胞癌);KIRP:Kidney Renal Papillary Cell Carcinoma (肾毛细血管细胞癌);LAML:Acute Myeloid Leukemia (急性髓样白血病);LGG:Lower Grade Glioma (低级别胶质瘤);LIHC:Liver Hepatocellular Carcinoma (肝细胞癌);LUAD:Lung Adenocarcinoma (肺腺癌);LUSC:Lung Squamous Cell Carcinoma (肺鳞状细胞癌);MESO:Mesothelioma (间皮瘤);OV:Ovarian Serous Cystadenocarcinoma (卵巢浆液性囊腺癌);PAAD:Pancreatic Adenocarcinoma (胰腺癌);PCPG:Pheochromocytoma and Paraganglioma (嗜铬细胞瘤和副神经节瘤);PRAD:Prostate Adenocarcinoma (前列腺癌);READ:Rectum Adenocarcinoma (直肠腺癌);SARC:Sarcoma (肉瘤);SKCM:Skin Cutaneous Melanoma (皮肤黑色素瘤);STAD:Stomach Adenocarcinoma (胃癌);TGCT:Testicular Germ Cell Tumors (睾丸生殖细胞肿瘤);THCA:Thyroid Carcinoma (甲状腺癌);THYM:Thymoma (胸腺瘤);UCEC:Uterine Corpus Endometrial Carcinoma (子宫内膜癌);UCS:Uterine Carsinosarcoma (子宫颈肉瘤);UVM:Uveal Melanoma (葡萄膜黑色素瘤)。
Figure 1. Expression of LY6D in GSE16515 (a), GSE32676 (b), GSE43795 (c); (d) Timer2 database shows the expression of LY6D in each tumor
图1. (a) LY6D在GSE16515中的表达情况;(b) LY6D在GSE32676中的表达情况;(c) LY6D在GSE43795中的表达情况;(d) Timer2数据库中LY6D在各肿瘤中表达情况
3.3. LY6D在胰腺癌中主要富集在细胞粘附通路中
运用TCGA中胰腺癌表达谱数据对LY6D基因进行GSEA功能富集分析提示,在KEGG富集分析中,如图3(a)所示,LY6D基因主要富集到粘附、紧密连接、胰腺癌、肿瘤通路等通路中,在GO BP分析中,如图3(c)所示,主要富集在细胞表面受体信号通路、组织再生、乳腺上皮细胞增殖等通路中,在GO CC分析中,如图3(b)所示,主要富集在中长丝、角蛋白丝、缝隙连接、中间丝细胞骨架等细胞组分中,而在GO MF分析中,如图3(d)所示,主要富集在细胞粘附介体活化、细胞粘附介质活化、层粘连蛋白结合、细胞骨架的结构组成等分子功能中。
3.4. LY6D与PSCA、MSLN关系紧密
运用sting数据库对LY6D基因构建PPI网络,选择了与其关系最为密切20个基因,如图4所示,分别是BST1、GPIHBP1、LY6E、LY6G6C、LY6H、LY6K、LYPD1、LYPD2、LYPD3、LYPD4、LYPD5、LYPD6B、MFI2、MSLN、PRSS21、PSCA、RAET1G、RAET1L、SPACA4、THY1。选择了其中关系较为密切的PSCA、MSLN进一步分析。
注:OS:总生存率;DFS:无病生存率;PFS:疾病特异生存率;DSS:无进展生存率。
Figure 2. (a) Mutation of LY6D in pancreatic adenocarcinoma (TCGA, PanCancer Atlas); (b)~(e) LY6D survival analysis of OS, DFS, DSS and PFS in patients with pancreatic adenocarcinoma in the mutant group and the non-mutation group
图2. (a) LY6D在pancreatic adenocarcinoma (TCGA, PanCancer Atlas)研究数据中的突变情况;(b)~(e) LY6D在胰腺癌患者中突变组与未突变组患者关于OS、DFS、DSS、PFS的生存分析
![](//html.hanspub.org/file/62-1572654x11_hanspub.png?20211028090945420)
![](//html.hanspub.org/file/62-1572654x12_hanspub.png?20211028090945420)
Figure 3. The results of enrichment analysis about KEGG, GP CC, GO BP and GO MF enrichment analysis of LY6D in patients with pancreatic adenocarcinoma
图3. LY6D在胰腺癌患者中关于KEGG富集分析、GO CC、GO BP、GO MF富集分析结果
![](//html.hanspub.org/file/62-1572654x13_hanspub.png?20211028090945420)
Figure 4. The PPI network constructed by LY6D and 20 protein molecules most closely related to it
图4. LY6D与其关系最为密切的20个蛋白所构建的PPI网络
3.5. LY6D、PSCA、MSLN高表达患者具有较差预后
根据基因表达水平(LY6D: 160; PSCA: 350; MSLN: 9283)将患者分为高、低表达组,运用Kaplan-Meier Plotter在线网站对LY6D、PSCA、MSLN进行预后分析,结果如图5所示,在OS及DFS生存分析中,相对于低表达组患者,LY6D、PSCA、MSLN高表达组患者均具有较差预后;同时,我们也在数据集GSE16515,GSE43795,以及GSE32676中分析了LY6D、PSCA、MSLN在胰腺癌中的表达,如图1(a)~(c)所示所示,LY6D、PSCA、MSLN在胰腺癌肿瘤组织中均呈现出高表达。
同时在HPA数据库上检索LY6D、PSCA、MSLN在胰腺癌中的表达情况,结果如图6所示,LY6D使用HPA024775抗体在正常胰腺组织中未检测到相应蛋白质,但在胰腺癌肿瘤组织中检测到强染色,MSLN使用HPA017172抗体在在正常胰腺组织为弱染色,但在胰腺癌肿瘤组织中检测到强染色,但PSCA使用HPA056418抗体在正常胰腺组织和肿瘤组织中均为检测到其相应蛋白的存在。LY6D、MSLN蛋白水平表达结果与基因水平结果一致,在胰腺癌中高表达,但PSCA蛋白未检测到。
![](//html.hanspub.org/file/62-1572654x14_hanspub.png?20211028090945420)
Figure 5. (a)~(c) The survival analysis of LY6D, PSCA and MSLN about OS in pancreatic adenocarcinoma; (d)~(f) The survival analysis of LY6D, PSCA and MSLN about DFS in pancreatic adenocarcinoma
图5. (a)~(c) LY6D、PSCA、MSLN在胰腺癌中关于总生存率(OS)的生存分析;(d)~(f) LY6D、PSCA、MSLN在胰腺癌中关于无病生存率(DFS)的生存分析
![](//html.hanspub.org/file/62-1572654x15_hanspub.png?20211028090945420)
Figure 6. The protein expression of LY6D, MSLN and PSCA in adjacent normal tissues (a)~(c) and pancreatic adenocarcinoma tissues (d)~(f)
图6. LY6D、MSLN、PSCA在胰腺癌癌旁正常组织(a)~(c)和胰腺癌组织(d)~(f)中的蛋白水平表达检测(The Human Protein Atlas)
3.6. 基于三基因构建胰腺癌患者预后模型
由于预后分析提示,LY6D、PSCA、MSLN与胰腺癌的预后具有显著相关性,且均在胰腺癌中显著高表达。于是我们便将LY6D、PSCA、MSLN三个基因用于构建胰腺癌患者的预后评估模型,根据多因素COX回归分析我们构建了胰腺癌患者的风险评分公式:Riskscore = (0.1483) * LY6D + (0.0271) * PSCA + (0.1093) * MSLN,根据风险评分,将患者分为高、低风险组(如图7(a))进行生存分析,如图7(b)所示,高风险组患者具有较差预后,提示这个预后标签对胰腺癌患者生存时间的预后具有显著意义。同时对该模型构建ROC曲线,如图7(c)所示,模型1,3,5,年预测ROC得分分别是0.716,0.804,0.697,也提示这个预后标签对胰腺癌患者的生存时间的预测具有显著的意义。然后对风险评分与免疫细胞的相关性分析提示,风险评分与B细胞、非特征细胞呈现出负相关,而与NK细胞呈现出显著正相关(见图8)。
![](//html.hanspub.org/file/62-1572654x16_hanspub.png?20211028090945420)
Figure 7. (a) Patients were divided into high-risk and low-risk groups according to risk scores; (b) Survival analysis was used to compare the prognosis of the two groups; (c) Build ROC curve to evaluate the predictive value of the model.
图7. (a) 根据风险得分将患者分为高、低风险组;(b) 对两组患者进行生存分析;(c) 构建ROC曲线评估模型的预测价值
![](//html.hanspub.org/file/62-1572654x17_hanspub.png?20211028090945420)
![](//html.hanspub.org/file/62-1572654x18_hanspub.png?20211028090945420)
Figure 8. Correlations between model risk score and B cell, T cell CT4+, T cell CD8+, uncharacterized cell, endothelial cell, macrophage and NK cell immune cells
图8. 模型风险评分与B细胞、CD4+T细胞、CD8+T细胞、非特征细胞、树突状细胞、巨噬细胞和NK细胞的相关性
4. 讨论
胰腺癌是人类恶性程度最高的肿瘤之一,是癌症相关性死亡的一个重大原因。因此,优化胰腺癌的筛查、诊断以及治疗对提高胰腺癌患者生存率具有重要意义 [17]。目前对于胰腺癌患者预后的评估暂无较为统一的标准。CA-199是胰腺癌的重要肿瘤标志物之一,与胰腺癌患者的预后有一定相关性,有学者提出使用白蛋白–胆红素(albumin-bilirubin, ALBI)评分结合CA-199水平评估患者预后 [18],但也未得到广泛使用。因此,寻找新的分子标志物以提高胰腺癌的早期诊断及评估患者的预后具有重要意义。
LY6D是一种蛋白编码基因,过表达LY6D可诱导衰老细胞液泡形成,而敲除LY6D可抑制与衰老相关的液泡形成,LY6D介导的大胞饮作用通过细胞外营养物质的掺入促进了衰老细胞的存活 [19],这可能与肿瘤细胞的异常生长相关。既往研究表明,LY6D与乳腺癌 [7]、肺腺癌等肿瘤的发生和生存预后显著相关,故本研究通过生信分析研究LY6D在胰腺癌中的致病的可能机制,但所有结果均基于生信分析所得,仍需要大量实验进一步验证。
本研究分析发现LY6D在TCGA胰腺癌数据集及GEO胰腺癌数据集中均显著高表达,且高表达与不良预后显著相关,同时在蛋白水平,LY6D在胰腺癌中仍表现出高表达,提示LY6D可作为胰腺癌的预后指标。同时,LY6D基因的突变与胰腺癌患者的预后相关,提示LY6D突变在胰腺癌的发病中可能扮演重要角色。通过GSEA富集分析发现,LY6D在胰腺癌中主要富集在粘附、紧密连接、胰腺癌等通路上,有细胞实验证实,LY6D的过表达导致肿瘤细胞粘附性的增高 [20],由此推测LY6D过表达导致胰腺癌细胞的粘附和扩散。通过string数据库检索了与LY6D关系较为密切的PSCA、MSLN两个基因,有研究表明高表达的PSCA与前列腺癌 [21]、胃癌 [22] [23] 等恶性肿瘤发病及不良预后显著相关,也有学者发现MSLN在胰腺癌诊断和预后中具有显著意义 [24]。由于PSCA和MSLN与胰腺癌预后显著相关,且与肿瘤的发生有着密切关系,于是本研究基于LY6D、PSCA和MSLN三个基因构建了胰腺癌患者预后评估模型,绘制该模型ROC曲线显示,1,3,5年预测ROC得分分别是0.716,0.804,0.697,提示该模型对胰腺癌患者预后具有较好的评估价值 [25]。
5. 结论
总之,LY6D在胰腺癌中表达上调,且与胰腺癌患者预后密切相关,同时在胰腺癌的扩散、转移中发挥重要作用。LY6D有望成为胰腺癌早期诊断的重要标志物和作为分子治疗的重要靶点。基于LY6D、MSLN、PSCA构建的预后模型对胰腺癌患者预后具有较好的评估价值。
NOTES
*通讯作者。