microRNA计算识别中的模式识别技术.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《microRNA计算识别中的模式识别技术.pdf》由会员分享,可在线阅读,更多相关《microRNA计算识别中的模式识别技术.pdf(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第22001 0 6期 年月 计 算 机 技 术 与 发 展 ER TECHNOl Y AND DEVELOPMENT Vo I 2 0 No 6 J u n 2 0 1 0 mi c r o R N A计算识别 中的模式识别技术 孙 秋 凤(南京师范大学 泰州学院 信息与科学技术 系,江苏 泰州 2 2 5 3 0 0)摘要:Mi c r o R N A s(r r a R N A s)是一种大小约 2 1-2 3个碱基的单链 R N A小分子,对多种生物学过程起调控作用,它们主要 参与基因转录后水平的调控,能有效地抑制相关蛋白质的合成,与生物体的生长发育和某些疾病的发生密切相关。对 n 1
2、 i c r o R N A s(r r a R N A s)的研究正在不断增加,计算识别为分子生物学实验寻找新 mi c r o R NA提供一组高质量的候选序列。文 中从模式识别的角度审视现有的计算识别技术,分析和比较各种方法的特点后发现基于支持向量机的识别方法已经能在 识别精度上得到很好的效果,这也是 m i e r o R N A识别技术将来发展的主要方向。关键词:m i c r o R N A;支持向量机;生物信息学;核函数 中图分类号:T P 3 9 1 4;Q 8 1 1 4 文献标识码:A 文章编号:1 6 7 3 6 2 9 X(2 0 1 0)0 6 0 o 9 7 0 4
3、 Pa t t e r n Re c o g n i t i o n Te c hn o l o g y f o r M i c r o RNA I d e nt i f i c a t i o n S UN Qi u f e n g (D e p a r t me n t o f I n f o r ma t i o n a n d Te c h n o l o g y,Ta i z h o u C o l l e g e,N a n j i n g N o rm a l U n i v e r s i t y,T a i z h o u 2 2 5 3 0 0,C h i n a)A b
4、s t r a c t:Mie r o R NAs(mi R NA s)a r e2 2 n t l o n g n o n c o d in g R g As t h a t a r e d e r i v e d f r o m la r g e r hai r p i n R NA p r e c u r s o r s a n d p la y im p o r t a n t r e g u lat o r y r o l e si n b o t h a nima l s a n d p l an t s Th e r e s e a r c ho fmi RNAsis c on
5、t i n u a l l yin c r e a s i n g a f t e rt h ef i r s tmi RNAswe r e d i s cov e r e d u s i ng e x p e rime n t a l me t h o d s S i n c e e xper i me n t a l mi RNA i d e n t if i c a t i o n r e ma in s t e c h nic a l l y c h a l l e ng i n g a n d in c o mp l e t e,t h i s cal ls f o r t h e
6、d e v e lo p me n t f o r c o mp u t a t i o n a l a p p r o a c h e s t o c o mp l e me n t e x per i men t a l a p p r o a c h e s t O mi RNA g e n e i d ent i f i c a t io n At t e mp t s t o l o o k b a c k t h e ex i s t in g c o mp u t a t i o n a l a p p r o a c h e s a nd comp a r e t h e i
7、r a d v a nt a g e s Fi n a l l y f ind t hat a mo n g a ll t h e po t e nt i a l me a n s t h e o n e b a s e d o nS VM h a s b e t t e r p r e c i s ion a n dt h a t Swh yt h i sme t h o d h a sb e o 3 n l et h ele a d i n gme L S L i l-ef o rmic r o RNA i d e n t i f ic a t io ni nt hef u t u r e
8、 Ke y wo r d s mi c mRNA;s u p p o r t v ect o r ma c h i n e;b io i n f o r ma t i e s;k e me l f u n c t io n O 引 言 mi R N A是一些长度约为 2 2 n t 的非编码调控 R N A 家族,它有 3 个显著 的特点:(1)广泛存在于真核生物 中,是一组不编码蛋 白 质的短序列 R N A,本身并不具有开放阅读框;(2)通常的长度为 2 0 2 4 n t,但在 3 端可以有 1 2 个碱基 的长 度变化;(3)成熟的 mi R NA 5 端有一磷酸基团,3 端为羟 基。
9、在线虫、果 蝇、小 鼠和人等物种 中已经发现的数百 个 m i R N A s中的多数具有和其他参与调控基因表达的 分子一样的特征,提示 m i R N A s 在高级真核生物体内 对基因表达的调控作用可能和转录因子一样重要。收稿 日期:2 0 0 90 93 0;修回 日期:2 0 0 9一l 22 2 基金项 目:国家 自然科学基金(6 0 2 7 5 0 0 7)作者简介:孙秋风(1 9 7 9 一),女,江苏泰州人,硕士,研究方向为模式 识别及生物信息技术。早期传统寻找 mi R NA的方法主要依赖于分子克 隆,此类方法一般都步骤烦琐、周期性长、工作量大,由 于目标不明确,效率较低且实
10、验费用昂贵。因此,研究 人员展开了计算方法的研究 以弥补实验方法的不足,基于机器学 习的计 算方法 已经 成为 发现 新 的 mi c r o R N A的一个重要手段,为实验发现提供候选 mi c mR N A 基 因。1 mi R N A计算识别方法 1 1 基于决策树的计算识别方法 这类识别方法中较为成功软件有:Mi R s c a n 1 和 mi R s e e k e r L 2 j。这类方法大致 的流程是从某一物种已 知 m i R N A 中提取相关特 征,建立 模 型,从 大量 的数据 集中筛选出候选 mi R N A,然后对其进行打分,若超过 某个阈值则认为此序列可归于这一
11、类。其中提取特征 并建立模型的操作从模式识别角度来看类似于建立一 棵决策树的过程(见图 1)。在文献 3 中考虑到在已识别的mi R N A周围可能 9 8-计算机技术与发展 第 2 O卷 存在新的 mi R N A,将待识别的序列长度增加 然后提 取其二级结构,使用 S VM对其进行分类。这个方法 的优点是使用了输入序列和二级结构,缺点在于忽略 了相关生物信息,可能导致在对哺乳类动物基因进行 测试时产生高的假阳性。图 1 一个二又 决策树的示例 文献 4 中的方法是基 于物种 间 的保 守性 而设 计 的,在特征方面除了使用了众所周知的前体二级结构 外,还提出 了三个可计算 的特征:(1)G
12、 C含 量为 3 8 7 0;(2)茎环长度在 2 0 7 0 n t 之间;(3)与物种 O s a t i v a 的序列相似性不低于 9 0。文献 5 中的 mi R A l i g n方法在序列信息的基础上 加人结构信息来对候选序列打分。在处理待识别序列 时,除了使用 自由能等常 规生物 属性来 预测 序列二 级 结构外,mi R A l i g n 增加 了一个在茎 环结构上检O n,4 mi R NA位置的操作,通过比较两个 mi R NA s 位置上的差别 确认二者是 否为 同源体。可以看 出,以上方法 的策 略大致 可 以分为 如下三 类:1)利用同源性搜索 已知 mi R N
13、 A基 因的直 系同源(o r t h o l o g)和旁系同源(p a r a l o g)。2)在 已知 mi I N A附近搜 索基 因簇。3)其他不依赖 于同源性 和 m i R N A基 因簇 的基 因 搜索法。该方法利用 近亲物 种 中 mi R N A基 因序列 的 保守性、非编码性,以及前体可形成潜在茎环结构等特 性来 给候选 mi R N A序列打分。1 2 基于支持 向量机的计算识别方法 1 2 1 支持 向量机 简介 支持 向量机(S u p p o r t V e c t o r Ma c h i n e,S V M)是基 于统计学习理 沦的学习方法。它通过构造最优超
14、 乎 面,使得对未知样本的分类误差最小。对于两类线性 可分情形,可直接构造最优超平面,使得样本集中的所 有 向量满足如下条件:(1)能 被某一 超平 面正确划分:(2)距该超平 面最近 的异类 向量 与超平面 之间 的 距离最 大,即分类 间隔最 大。则该超 平面 为最优 超平 面。其 中,条件(1)是保证经验风险最小,条件(2)是使 V C置信度最小,从而使期望风险最小。这里,最优超平面的构造问题实质上是约束条件 下求解一个二次规划问题,以得到一个最优分类 函数 为:_ f(z)=s g n 5_ 2 y,a ik(,z)+b i=1 其 中 k(,)是一 核函数,s g n 是符号函数,L
15、为训 练样本数 目。在该分类 函数中,某些 z 对应的 不为零,由于 这些具有非零值 a 的对应的向量支撑了最优分类面,因此被称为支持 向量。对于线性 S V M,核函数 k(-,)就是两向量的点 积运算;对于非线性情形,可通过非线性映射把输入向 量映射到一个高维特征空间,来构造最优分类面,常用 的核 函数形式有多项式形式、径向基形式、二层感 知器 神经 网络形式。1 2 2 一 些将序列转化成向量的方法 在基于决策树的方法中已经有部分方法中使用 S VM来对结果进行分类,但使用仅限于将其作为一个 分类工具,并未有任何改进之处。随着研究 mi R N A的 人员越来越多,方法也开始呈现多样化,
16、对 于一些 边缘 学科而 言,如生物信 息学,人们 希望将 mi R N A不仅 仅 看成纯 生物 的序列,而是将其看 成大多 数人 能接 受 的 某种结构,且这种结构能有利于特征的提取。文献 6 中将发卡序列中碱基表示成相应的三联 组,然后统计 3 2个可 能的三联 组 出现 的次数,经 过归 一化后 作为 S V M 的输 入 向量进 行训 练 得到 决 策 面,进而对测试数据进行分类。这个方法的优点在于不需 要考虑相关的生物特征,而且测试结果也显示虽然没 有考虑那些 因素,但所 映射后 的特征还 是反映 了 m i R N A二级结构 的有关性质。文献 7 提出了一个依据遵循“特征生成、
17、选择、综 合”构造识别模式、基于 S V M 的 d e n o v o 方法来识 别前 体。为了捕获二级结构 中的信息,先通过 R NMo l d将 前体折叠,为了便于数据处理,再将碱基对进行编码。文献 8 的作者认为使用 S V M识别 mi R NA的方 法虽多,但那些方法都没有将一些特征很好地综合起 来,因此提 出 P S o L(P o s i t i v e S a m p l e O n l y L e a rni n g A l g o r i t h m)算法。算法的关键在于训练数据集的选择,算法的基本 第 6期 孙秋风:mi c r o R N A计算识别 中的模式识别技术
18、 9 9 思想是:(1)根据序列 统计 性,最 小 自 曲 能及相 关基 因间 的相似性度量将每个序列转换成特征 向量。其中序 列 统 计 性 包 括(A,C,G,T),d i n e r(A A A C T T)及 t r i me r(A A A,A A C 1 v r r)的个 数;相 似 性度 量包括 T y p h i C T 1 8,T y p h i T y 2及 T y p h i L T 2。通常特征向量维数过 多会降低 识 别能力,因此对 转换 后得到的 8 8个向量 进行筛 选。(2)将 已有 的数 据 分 为 正类 样本 及 u n l a b e l e d d a
19、t a(即 其 中既 有 正 类 也 有 负 类)。P S o L的 目的是在 u n l a bel e d d a t a中预 测正类样 本,但问题是现有 的训练集 中没 有负类样本,如何产生负类样 本是本算法 的核心之一。由于序列 的保 守性通常 在二级结构,因此单单序列 比对将无法识别那些在其 初级序列上分化得很远但仍保持其碱基 配对结构 的 mi R NA s。基 于此,在 特征 提 取 生成时,与基于决策树类方法将特征 的提取重点放在序列信息不同的是,这类 方法的特征提取侧重于结构信息。1 2 3 一 些使 用特殊核 函数 的方 法 是所有(k i,mi)一mi s m a t c
20、 h k e rne l 的总 和:K(r,l 1,)(,)=(z),O k i,m i()i =K (z,)G S K的基 本 思想 是 将 序 列 映射(见 图 4)成 l G S K,2一 G S K 和 3一G S K,通 过训 练 找 出权 值较 高 的 映射子串并把它们作为特征输入 S VM对数据进行测 试。S e q u e n c e =A B B A l I=(A jB,c)2-m e r s i A B,B B,B A ()C I)tM Ji sJl ()A A A B l A C 8 A 8 B B C C A C B C C :A B B A AA 1 1 1 1 1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- microRNA 计算 识别 中的 模式识别 技术
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内