在哺乳动物细胞核中,染色体通过复杂的折叠形成三维基因组结构,而拓扑相关结构域(TADs)是其关键特征之一,这些结构在细胞发育与疾病发生中发挥着重要作用。然而,尽管已有多种检测方法,但由于背景噪声及TAD结构的复杂嵌套关系,如何精准检测TAD仍然是一个亟待解决的挑战。
12月2日,中国科学院深圳先进技术研究院资治科研究员团队联合华中农业大学李立教授团队,在Genome Biology杂志上在线发表了题为“HTAD: a human-in-the-loop framework for supervised chromatin domain detection”的研究成果。研究人员开发了一种基于“人机交互”框架的TAD识别方法,命名为HTAD。该方法提出了“人机交互”(HITL)的创新思路,通过结合主动学习和人工的判断力,显著提升了机器学习模型的性能。
研究团队深入分析了现有的TAD检测技术,发现这些计算方法在局部结构识别上常常存在一致性与可靠性不足的问题。HTAD通过引入人工标注,增强了数据挖掘效果,实现了精确的TAD特征提取与高效的模型训练。HTAD不仅在检测效果上优于现有方法,还成功揭示了复杂TAD结构,为复杂基因组模式的处理提供了一种全新的“人机交互”解决方案。
HTAD:人机交互识别TAD结构域的工作流程
团队首先基于数据,建立了一个包含大量潜在TAD样本的数据库,通过简化方向性指数(sDI)对Hi-C矩阵进行初步筛选。随后,采用主动学习(Active Learning)策略对筛选样本进行有效标注,成功训练出具有高敏感度和高精度的TAD识别模型。
实验结果表明,HTAD在TAD边界定位和复杂结构识别方面表现出色,尤其在多个数据集上展现了强大的稳定性与适应性。总之,HTAD的推出为三维基因组结构的研究提供了新工具,提升了分析的准确性和可靠性,未来有望在复杂基因组模式解析中发挥重要作用,推动相关研究的进展。
资治科课题组成员沈威为论文的第一作者,资治科研究员和李立教授为该论文的通讯作者。该研究得到了国家自然科学基金、华中农业大学自主科技创新基金、广东省合成基因组重点实验室和深圳市合成基因组重点实验室的资助。(来源:中国科学院深圳先进技术研究院)