中大新聞中心

2020年8月30日

中大工程学院提出人工智能技术研究多种基因调控机制 有望推进生物医学研究

2020年8月30日
分享
列印

中大计算机科学与工程学系副教授叶旭立教授。

上图显示如何透过机器学习和自然语言处理技术研究多种基因调控机制。

香港中文大学(中大)计算机科学与工程学系的研究团队,将机器学习和自然语言处理等人工智能技术应用于基因表达调控的研究,开发崭新的「嵌入式基因表现框架」(Gene Expression Embedding frameworK,简称GEEK)。它可同时研究多种调控机制对基因表达的影响,突破以往只考虑单一或少量机制的传统研究模式。论文已刊登于国际权威科学期刊Nature Machine Intelligence,研究成果或可延伸至探索癌症的成因及治疗,推动医学发展。

人体有数十兆个细胞,尽管它们都有相同的染色体,却有著截然不同的基因表达。这些基因表达受多种机制调控,包括转录因子、蛋白质之间交互作用等。于2017年,中大计算机科学与工程学系叶旭立教授带领其团队集中研究基因组中的增强子(Enhancer)和基因的数据,发现两者间的特定规律,并将其应用在肝癌研究中,找出可能诱发肝癌的三组基因。然而,这项研究以及其他相关研究只考虑了少量基因调控机制,无法全面了解各种机制之间的复杂相互作用。

叶旭立教授表示:「过去的研究大多只针对个别基因调控机制,但事实上各种机制之间会相互影响,存在十分微妙的关系——就如一部电器不能透过遥控器开机,表面上看来是遥控器出问题,但亦可以是接收器的问题,或者遥控器与电器不相容等。若能用一种工具处理及分析多个不同机制,便能更容易掌握问题根本所在。」

叶教授的研究团队提出利用人工智能领域的机器学习和自然语言处理技术,把基因当作文字看待,再选取重要数据分析。研究团队建立的GEEK框架,可同时研究基因表达和多种调节机制之间的关系,包括在三维基因组架构中不同DNA的互为接触、蛋白质之间的相互作用、基因组邻域、染色质的广泛可及性等。结果显示,当所有数据在GEEK框架下运算,整合多种基因机制,所显现出的基因调控规律,跟采用单一或少量机制的运算效果比较,明显更全面及完整。

基因变异会导致细胞不正常增生,是导致癌症的原因。叶旭立教授表示:「GEEK框架是探索基因调控的一个全新发明,我们将联同医学专家继续研究,套用GEEK去了解诱发肝癌的成因,之后再扩展至其他癌症研究上,盼协助医学界找出癌症的成因,从而开发出更有效的预防和治疗方法。」癌症治疗方法推陈出新,免疫治疗是当中的「新宠」。其成效虽于个别癌症中远比传统疗法为佳,但治疗效果因人而异,不是对每位用药者都有效。叶教授表示:「展望将来,科学家可善用人工智能,准确推算每位患者对免疫疗法的反应,提升用药的准确度及减轻病人的痛苦和试药的负担。

是项研究获得大学教育资助委员会的优配研究金(GRF)资助,团队花了一年半时间便取得突破性成果。在基因表达调控研究的领域中,叶教授累积逾十年的研究经验,亦是首批参考机器学习及自然语言处理模式来进行研究的团队。



中大计算机科学与工程学系副教授叶旭立教授。

中大计算机科学与工程学系副教授叶旭立教授。

 

上图显示如何透过机器学习和自然语言处理技术研究多种基因调控机制。

上图显示如何透过机器学习和自然语言处理技术研究多种基因调控机制。

 

下载所有相片