面向生物大数据的机器学习与人工智能方向简介
现代科技与基因测序技术的发展,使得海量生物大数据的获取成为可能,但是,人类仍然无法解释科学家们在著名的《自然》杂志提出的人和老鼠大约共享有99%的类似基因,他们的生物特性却区别很大的问题。本研究方向就是通过机器学习、人工智能解决对生物大数据的数据挖掘理论、技术、方法。
主要研究方向有RNA结构分析和预测、siRNA分析及预测、miRNA分析及其靶基因预测和LncRNA与肿瘤等四个方向。
在RNA二级结构预测方面提出了两个算法:
结合了传统动态规划算法和组合优化算法在二级结构预测方面的优势,提出了一种以茎区为最小结构单元的新的动态规划算法。对于给定的RNA序列,首先得到所有可能的茎区集合,采用环依赖的方式计算二级结构的能量,通过茎区动态规划算法递归得到能量最优的二级结构。最后选取数据库中不同长度的已知二级结构的RNA序列进行测试,结果表明该算法在特异性,敏感性和马休兹参数方面均优于遗传算法,在计算复杂性方面低于传统的动态规划算法。
对于给定的RNA序列,通过给定的编码方式,先得到其所有可能的茎区,构成集合。采用更为准确的多分枝环的能量计算公式。将每个茎区均视为结点,蚂蚁根据结点和结点之间累积的信息素以及启发式信息选择下一个结点,直到允许集合为空。本算法给出了初始信息素和启发式信息的构造方法,初始茎区和下一茎区的选择机制,以及信息素的更新策略。而后通过实验给出了蚁群算法中的比较合适的参数选择方案。和遗传算法相比,蚁群算法更加适合RNA的二级结构预测问题。
目前主要进行面向流感病毒的siRNA设计,首先通过机器学习的方法,找到对流感病毒有抑制作用siRNA的特征,然后建立流感病毒siRNA预测模型,最后设计出高效的流感病毒siRNA设计软件。正在做的工作是找到对siRNA抑制率起关键作用的特征,我们从siRNA的序列特征、对应的靶基因的序列特征、对应的靶基因的结构特征、以及siRNA和靶基因的结合特点等方面进行分析,寻找关键的特征,这样在设计时能大大提高效率,最终才能设计出高效的siRNA设计软件。
基于多步打分提出了一种寻找调控流感病毒基因片段的人编码miRNA的新方法—miRScore方法。该方法以H1N1流感病毒为例,使用了NCBI中的H1N1的8个片段数据和miRBase中具有成熟体的人编码miRNA作为实验数据,通过以下3个特征进行分析:
通过分析后,得到了分类的人编码miRNA,并通过对关键特征的排序,得到了影响度高的人编码miRNA,这也是最有可能调控H1N1流感病毒片段的人编码miRNA。目前我们已经得到了能够调控H1N1流感病毒各片段的人编码miRNA。但该方法还需从以下方面进行改进:首先,在选择人编码的miRNA时,可试图减少miRNA的数量。miRNA的表达是在特定的组织中的,某些组织可能与流感病毒的感染完全无关。其次,对影响最终结果的新的特征尚有待于提出。
关于新靶基因特征提取方法研究,提出了3个新特征提取方法:种子区域的能量标定、种子区域元素比例和二聚体结构上的惩罚特征,它们都能进一步促进靶基因数据的聚类程度,尤其是第三种方法。正在开展模式骈接算法研究,从尽量降低时耗的角度进行研究。现在的难点在于想对RISC复合体结构提取特征。
通过深度学习、人工智能等新方法挖掘与肿瘤相关联的调控LncRNA,解释肿瘤发生、发展、调控的原因,为肿瘤的深入研究提供大数据分析基础。