1. 引言
肝细胞癌(Hepatocellular carcinoma,简称:HCC)是最常见的原发性肝脏恶性肿瘤,是全世界癌症死亡的最主要原因 [1]。肝癌在亚洲和非洲国家发病率非常高,近年来发病率在西方国家也迅速增加 [2]。由于HCC晚期患者不适合根治性肝切除和肝移植,即使患者接受了手术切除,高复发率也是导致肝癌患者5年生存率差的主要原因 [3][4]。肝癌的发展是一个复杂的过程,越来越多的证据表明,除遗传因素以外,表观遗传学的改变也对肝癌的发生产生了重要的影响 [5][6]。因此了解表观遗传学改变的潜在机制,对于发现高效的新疗法是至关重要的。
表观遗传学是指DNA序列没有发生改变但基因表达发生了变化,并且这种变化是可逆和可遗传的,主要包括DNA甲基化和组蛋白修饰(乙酰化、甲基化、磷酸化、泛素化等)等调控机制。组蛋白修饰是核心组蛋白朝向外部的N端尾巴在相关酶的修饰下,加上或去掉相关基团发生的修饰变化,如组蛋白甲基化、乙酰化、磷酸化、泛素化、腺苷酸化、ADP糖基化等修饰。目前研究最广泛的主要是组蛋白甲基化和乙酰化。已有研究报道,组蛋白乙酰化主要富集在启动子区域,激活基因的转录 [7][8]。而组蛋白甲基化与基因的激活或抑制有关,这与修饰的组蛋白残基有关。例如,组蛋白3赖氨酸4的3甲基化(H3K4me3)一般在转录起始位点附近富集,来激活基因转录 [9][10]。组蛋白3赖氨酸27的3甲基化(H3K27me3)一般与基因的抑制有关 [11][12]。组蛋白3赖氨酸9的三甲基化(H3K9me3)则与易染色质和基因沉默有关 [13]。而在肝癌中有关组蛋白修饰理论分析的报道还比较少,因此我们对肝癌细胞与正常细胞中的组蛋白修饰进行了研究。
本文统计了人类肝癌细胞与正常肝细胞的11种组蛋白修饰在启动子区域80个区间的修饰值,由此得到了这两种类型细胞中启动子区域的组蛋白修饰分布;计算了组蛋白修饰在这些区间上与基因表达的相关性,得到了组蛋白修饰在整个启动子区域的相关性分布以及两种细胞中相关性的异同;讨论了组蛋白修饰分布与相关性分布之间的关系以及它们在两种细胞中的区别,并计算了组蛋白修饰两两之间的相关性;最后我们又进一步对两种细胞中的高低表达基因上的组蛋白修饰进行了分析。
2. 数据和方法
2.1. 数据来源及预处理
本研究分别选取了人类肝癌细胞系(HepG2)以及正常肝细胞系(hepatocyte)共有的所有组蛋白修饰数据,总共有11种(H3K9me3、H3K4me3、H3K27me3、H2AFZ、H3K4me1、H3K36me3、H3K4me2、H3K27ac、H3K79me2、H3K9ac、H4K20me1),数据来源于ENCODE (https://www.encodeproject.org/)数据库,下载的为bed格式的数据;我们还从该数据库下载了这两种细胞系对应的基因表达RNA-seq数据,数据也为bed格式,我们用bedtools将这两种数据转换为bam格式,便于后续分析。
本研究所使用的人类参考基因组注释文件下载自UCSC数据库 (http://genome.ucsc.edu/cgi-bin/hgTables)。对于本研究中所使用的参考基因组数据,预处理过程为:首先,将数据中的非编码RNA (以NR开头)全部去除;然后对具有相同转录起始位点的基因去重复,随机保留一个;最后,对基因名去重复,只保留一个。经过初步处理,最终剩余19,157个基因,这些基因作为后续分析的基因。
2.2. 组蛋白修饰值和基因表达值的计算
我们选取人类参考基因的转录起始位点(TSS)上下游2000 bp作为启动子区域,并将TSS上下游每50 bp划分为一个区间,这样启动子区域共分为80个bin。我们用Python语言编程将组蛋白修饰数据落入这些区间。然后根据公式(1)计算每个区间上的组蛋白修饰值(HMs values),这样就可以分别得到在启动子区域80个区间上的组蛋白修饰值。
(1)
其中
是组蛋白修饰值,
为落入某区间内的组蛋白修饰read数,
为组蛋白修饰的所有read数,50为每个区间的长度。
我们根据RPKM (Reads Per Kilobases per Million reads)的定义来计算基因表达值 [14]。
2.3. 相关性分析
2.3.1. 组蛋白修饰与基因表达的相关性
为了说明启动子区域组蛋白修饰与基因表达之间的相关性,我们分别计算了这两种细胞中11种组蛋白修饰在80个区间上的组蛋白修饰值与基因表达值之间的皮尔森(Pearson)相关系数,即
与
之间的Pearson相关性,其中i代表11种组蛋白修饰中的某种,j为80个区间上的某个区间,为了消除对数无意义的情况,所以我们加了假计数0.01。
2.3.2. 组蛋白修饰之间的相关性分析
由于组蛋白修饰之间存在共修饰现象,组蛋白共修饰可能对基因表达造成影响,为了探究组蛋白修饰之间的关系,我们用R语言计算了每两个组蛋白修饰之间的Spearman相关性,得到一个11 × 11的相关系数矩阵。Spearman相关系数值介于−1~1之间,正的表示正相关,负的表示负相关,相关系数的绝对值越大表示组蛋白修饰之间的相关性越强。然后我们将这个Spearman相关系数矩阵输入R语言中用heatmaps绘图,结果即以热图的形式展示。
2.4. 高低表达基因的划分
我们将两种细胞的基因表达值按照从高到低的顺序排序,选取表达值高的前百分之十作为高表达基因,将两种细胞中表达值为0的基因作为低表达基因。这样正常细胞中得到高表达基因1915个,低表达基因2922个;癌症细胞中得到高表达基因1915个,低表达基因5352个。
3. 结果和讨论
3.1. 组蛋白修饰在两种细胞启动子区域的分布
我们首先对正常细胞和癌症细胞中所有基因在启动子区域的11种组蛋白修饰进行分析,经过计算作出启动子区域的组蛋白修饰分布图(图1)。从图中可以看出,在启动子区域11种组蛋白修饰的分布模式主要为两种类型,大部分分布模式成双峰分布(H3K9ac、H3K27ac、H3K4me2、H3K27me3、H3K4me3、H2AFZ、H3K4me1、H3K9me3),另一种分布模式为非双峰分布(H4K20me1、H3K36me3、H3K79me2),这11种组蛋白修饰分布的峰谷基本都位于转录起始位点。通过比较正常与癌症两种细胞中的组蛋白修饰分布,发现这11种组蛋白修饰基本都是在癌症细胞中比正常细胞中分布高,只有H2AFZ和H3K9me3这两种组蛋白修饰是正常细胞中比癌症细胞中分布高,表明这两种修饰可能起到了抑制性修饰的作用,这一点在相关的文献中也有类似报道。
3.2. 组蛋白修饰与基因表达的相关性分析
计算RPKM值与11种组蛋白修饰在80个区间上的Pearson相关系数,并将两种细胞启动子区域组蛋白修饰与基因表达的相关性结果绘制曲线图(图2),图中纵坐标为相关系数。从图中可以看到,H3K9ac、H3K27ac、H3K4me2、H3K4me3、H2AFZ、H4K20me1、H3K36me3、H3K79me2、H3K4me1这9种组蛋白修饰与基因表达的Pearson相关系数为正,并且基本都是癌症细胞中相关性比正常细胞中高,只有H2AFZ和H4K20me1是正常细胞中比癌症细胞中相关性高,H3K4me1是在转录起始位点上下游附近正常细胞比癌症细胞相关性高,远离转录起始位点的部分相反,是癌症细胞中比正常细胞中相关性高。而H3K27me3与基因表达的Pearson相关系数为负(相关系数r值都小于0),并且是正常细胞中比癌症细胞中相关性高,说明H3K27me3对基因表达起到了抑制作用,并且在正常细胞中抑制性比在癌症细胞中抑制性强一些。H3K9me3与基因表达的相关性却是在正常细胞中呈正相关,在癌症细胞中呈负相关,表明在正常细胞中对基因表达起到了促进作用,而在癌症细胞中对基因表达起到了抑制作用,也就是说组蛋白修饰对基因表达的角色变化,可能对癌症的发生起到了一定的作用。
我们选取正常细胞与癌症细胞中组蛋白修饰与基因表达的皮尔森相关系数在所有区间的最大值作图(图3)。可以看出正常细胞中相关性普遍比癌症细胞中低,除了H4K20me1和H2AFZ这两种组蛋白在正常细胞中比癌症细胞中相关性高,H3K4me3呈正相关、H3K27me3呈负相关与相关的研究结果一致 [9][11]。而H3K9me3在正常细胞与癌症细胞中相关性差别最大,在正常细胞中为正相关,而在癌症细胞中为负相关,表明这种组蛋白修饰可能在正常细胞中促进基因表达,而在癌症细胞中抑制基因表达。H3K36me3组蛋白修饰在正常与癌症细胞中,虽然都为正相关,但是在正常细胞中相关性比较低,而在癌症细胞中相关性相对比较强,两者差距比较大。
为了探究转录起始位点上下游组蛋白修饰与基因表达的相关性分布和组蛋白修饰分布之间的关系,我们作了曲线图(图4),可以看出在启动子区域相关系数和组蛋白的分布走势基本相同,且大部分遵循组
![](//html.hanspub.org/file/2-1690071x16_hanspub.png)
Figure 1. The curve of distribution of histone modifications in all genes
图1. 所有基因的组蛋白修饰值分布
![](//html.hanspub.org/file/2-1690071x17_hanspub.png)
Figure 2. The curve of Pearson correlation between gene expression and histone modifications
图2. 每种组蛋白修饰与基因表达的皮尔森相关系数图
![](//html.hanspub.org/file/2-1690071x18_hanspub.png)
Figure 3. The column chart of Pearson correlation between gene expression and histone modifications
图3. 组蛋白修饰与基因表达的皮尔森相关系数柱形图
注:图中绿色为正常细胞,红色为癌症细胞,每种颜色中颜色较深的曲线为相关性分布曲线其对应右侧的纵坐标,颜色较浅的曲线为组蛋白修饰分布曲线其对应的为左侧的纵坐标
Figure 4. The relationship between the distribution of histone modifications and Pearson correlation
图4. 组蛋白修饰分布与皮尔森相关系数的分布之间的关系
蛋白修饰值越高的细胞对应的相关性也比较大;除了H3K27me3、H4K20me、H3K4me1这三种相反,它们的组蛋白修饰值越高,对应的相关性却比较低。
3.3. 组蛋白修饰之间的相关性
组蛋白之间的共修饰可能会影响基因的表达,因此我们探究了组蛋白修饰与组蛋白修饰之间的相关性,分别作了两种细胞中的组蛋白修饰之间的Spearman相关系数热图(图5)。从正常细胞的相关系数热图可以看出,在正常细胞中有三组正相关性非常强的组蛋白修饰簇,分别是H2AFZ、H3K27ac、H3K9ac、H3K4me3、H3K4me2这5个组蛋白修饰之间Spearman相关性大于0.81,H3K27me3、H3K9me3、H3K36me3这3个组蛋白修饰之间Spearman相关性大于0.89,H4K20me1和H3K79me2这两个组蛋白修饰之间的Spearman相关性大于0.9;而H3K9me3与H3K27ac、H2AFZ、H3K9ac之间的组蛋白修饰Spearman相关性小于−0.52,H3K79me2和H2AFZ之间的Spearman相关性小于−0.53,H3K27me3与H2AFZ、H3K27ac之间的Spearman相关性小于−0.54,这三组分别构成负相关的功能簇。从癌症细胞的相关系数热图可以看出:H3K4me3、H3K27ac、H3K9ac、H3K27me3、H3K4me2之间的Spearman相关系数大于0.86,H2AFZ与H3K27ac、H3K4me3之间的Spearman相关系数大于0.79,H4K20me1和H3K79me2、H3K36me3之间的Spearman相关系数大于0.68,这三组构成正相关性强的组蛋白修饰功能簇;而H3K4me1与H3K4me3、H3K27ac、H3K9ac之间的Spearman相关性小于−0.64,H2AFZ和H3K4me1之间的Spearman相关性小于−0.61,这两组分别构成负相关的功能簇。可以看出,两种细胞的组蛋白共修饰并不相同,表明组蛋白修饰之间的变化可能也是导致肝癌发生的原因。
3.4. 高低表达基因上的组蛋白修饰分析
由于细胞中每种基因的表达水平都不相同,前面虽然对所有基因进行了总体分析,但可能会掩盖掉一些信息,因此,我们进一步将所有基因划分为高低表达基因,并对高低表达这两类基因进行分析。
为了从整体上说明在启动子区域高低表达基因上的组蛋白修饰水平,我们计算了高低表达基因在所有区间归一化的组蛋白修饰平均值,并将两种细胞高低表达基因的组蛋白修饰平均值作了对比,结果见表1。从表格看出,在正常细胞中H3K9ac、H3K4me2、H3K27ac这三种组蛋白修饰明显在高表达基因(High)中比低表达基因(Low)中修饰值高,这可能与它们是激活性修饰有关;而组蛋白修饰H3K27me3则在低表达基因中比高表达基因中修饰值高,这可能与它是抑制性修饰有关。在癌症细胞中,组蛋白修饰H3K9ac、
![](//html.hanspub.org/file/2-1690071x20_hanspub.png)
Figure 5. The heat maps of Spearman correlation between histone modifications
图5. 组蛋白修饰之间的Spearman相关系数热图
![](Images/Table_Tmp.jpg)
Table 1. The average of histone modifications in highly and lowly expressed genes
表1. 高低表达基因中组蛋白修饰的平均值
注:高低表达基因中组蛋白修饰平均水平差异显著大于三倍的用加粗表示,高表达基因比低表达基因平均修饰水平低的用红色来表示。
H3K4me3、H3K36me3、H3K4me2、H3K79me2、H3K27ac在高表达基因中比低表达基因中修饰值高(可能都为激活性修饰),并且与正常细胞相比差异更显著。组蛋白修饰H3K27me3和H3K9me3在低表达基因中比高表达基因中修饰值高,这可能与这两种组蛋白修饰是抑制性修饰有关。比较发现这些激活性修饰在两种细胞中都是高表达基因中修饰值比低表达基因中修饰值高,只是在癌细胞中激活性作用更强。H3K9me3在两细胞中修饰值都不高,但癌细胞低表达基因中却高于高表达基因,这可能与它是抑制性修饰有关。从癌症细胞和正常细胞的高表达基因与高表达基因(H/H),低表达基因与低表达基因的比(L/L),看出低表达基因上组蛋白修饰值在两种细胞中差异并不显著,而高表达基因上的组蛋白修饰H3K4me3、H3K36me3、H3K79me2、H3K27ac在两种细胞中差异非常显著,表明肝癌的发生可能与高表达基因中这些激活性修饰的明显增加有关。
4. 结论
本文主要研究了肝癌细胞与正常细胞的组蛋白修饰的区别。我们通过计算11种组蛋白修饰在两种细胞启动子区域80个区间上的组蛋白修饰值,得到了组蛋白修饰在启动子区域的分布,发现存在两种组蛋白修饰模式,并且发现组蛋白修饰值在癌症细胞中普遍增高。计算了组蛋白修饰值与基因表达值RPKM之间的Pearson相关性,发现大部分相关性为正值,只有H3K27me3为负值,而H3K9me3在两种细胞中的相关性正负不同。通过计算组蛋白修饰之间的Spearman相关性,我们发现两种细胞中有不同的组蛋白修饰功能簇。最后我们又对两种细胞高低表达基因上的组蛋白修饰平均水平进行了分析,发现高表达基因上的组蛋白修饰在两种细胞中差异非常显著,说明高表达基因上组蛋白修饰的变化可能对肝癌的发生产生了更大的影响。
致谢
感谢国家自然科学基金(批准号:31460234、31870838和11747315)对本论文的支持。
NOTES
*通讯作者。