计算药学第6章(第2次(最后一次)课的课件,计算药物分析)内容摘要:

计算药学第6章(第2次(最后一次)课的课件,计算药物分析) 第 6章 基本概念分析化学已扩展到多维空间 ;越来越多的智能型分析仪器采集到多维多变量数据 ;化学模式识别技术是多变量数据分析在化学领域的重要应用。 极管阵列检测器色谱光谱图 每个组分多个波长的吸收度 ;复杂体系的分离分析(中药分析、生物大分子分析、人类基因组学)如:模式识别的基本概念 ( 模式” :模式识别 :供模仿用的完美无缺的样本;具有某种共同性质的一类现象的集合。 认识出某个样本与哪一种供模仿用的样本相同体相似。 是鉴别数据阵提供的信息,用数学方法识别具有一定模式的样品和变量,其功能是对样本进行分类或识别。 例如: 中医凭舌苔和脉搏进行诊断;公安人员根据指纹查证罪犯。 任何一个化学样本 (o 可用一组变量va 来表征 变量r ,由特征描述的各样品的点称为模式。 对某模式,假如用 n 个特征1x,2x, 可用特征矢 X =1x,2x, 来表示, 模式就是这 n 维空间中的矢量或点,称此空间为模式的特征空间或模式空间。 二维数据: 羧酸和酮的沸点和熔点 分类 :无监督模式识别 ( 模式识别的基本概念聚类 分析根据样本数据判别样本是否可属于不同的类别。 有监督模式识别 ( 数据中有一部分是已知模式的样本,通过对处理过的数据进行试验,识别未知类别的样本属于不同的类别。 训练集和预测集有监督模式识别: 利用训练集( 过训练或学习来获得识别准规(或判别函数),然后用这些识别好的规则来判决未知模式所属类别,并利用预测集,对训练集中获得的识别准则加以检测,来考察识别准则的可靠性与正确性。 数据预处理 遗漏的数据、中心化与比例调整 遗漏数据 : 不宜用零替代,而用行或列的平均来替代,或者使用随机数来替代。 消除数据 量纲不同或分布范围过大造成 的常数偏移量,可以对坐标原点做变换,一般的步骤是均值中心化,即利用下面的公式从每个变量: ( 6 - 2 ) 消除数据量纲不同或分布范围过大造成的常数偏移量,可以对坐标原点做变换,一般的步骤是均值中心化,*11k i x 原始数据矩阵的预处理,212222111211 个样本数据为一个 心化处理:对数变换:范围调整正规标准化处理 :*,2,1 ,2,1 xx 0, 10 *m i nm a xm i n* * 121值为零 ,方差为 1)令: X ) 协方差矩阵与相关矩阵 数据预处理的常用方法将原始数据变换坐标系,用于后面介绍的各种模式识别方法。 变换的思路根据原始数据矩阵得到一个可以反映原始数据中各数据点之间关系的数据矩阵;即 方差协方差矩阵或相关矩阵。 方差 协方差矩阵;,1)(11),co v (1(6 - 5) 设 S j 个变量的方差,由此可得协方差矩阵: 2112222c o v ( 1 , 2 ) c o v ( 1 , )c o v ( 2 , 1 ) c o v ( 2 , )c o v ( , 1 ) c o v ( , 2 )p S( 6 - 6 ) 可以看出协方差矩阵是对称矩阵。 令: X)相关矩阵由 相关系数 组成 ,相关系数 的计算如下 : 12 2 1 / 211( ) ( )c o v ( , ) ( ) ( ) j i j i x x j x x x ( 6 - 7 ) 相关矩阵为: 1 2 11 2 212111( 6 - 8 ) 距离与相似性度量 通过样本间的相似性来对样本进行分类的。 可用距离来描述样本间的相似程度 ; 距离越小两个样本越接近,相似性大,分在同一类的可能性就越大,距离大则相反。 距离越小两样本越接近,分在同一类的可能性就越大绝对距离氏距离 氏距离: 1氏距离: 12距离数据矩阵的协方差矩阵聚类分析聚类分析的一般概念将一批样品或变量按照它们性质上亲疏远近的程度分类基本思路 一定方法逐步并类,使类由多变少,直至最后合并为一类。 类: 设 对任意的样本 ,Td ,则称 本间的距离描述样本(或变量)间亲疏程度的统计量 :相似系数 或 距离性质越接近的样本间的相似系数越接近 1或 种陨石样品分别测试 4种金属的含量,原始数据如下:编号 1 2 3 4A 100 80 70 60B 80 60 50 40C 80 70 40 50D 40 20 20 10E 50 10 20 10解: 算其距离矩阵如下:编号 A B C D B 4 0 . 0 0C 3 8 . 7 1 7 . 3 0D 1 1 0 . 4 7 0 . 7 7 8 . 1 0E 1 1 1 . 4 7 2 . 1 8 0 . 6 1 4 . 1 0 系统(谱系) 聚类法基本思想: 先把 择距离最小的两类合并成一个新类并计算该类和其它类的距离,再将距离最近的两类合并,这样每次减少一类,直至所有样本都成为一类。 算法: 设初始模式样品共 个样本看成一类 0030201 , 计算各类之间的距离 ,可得 维的距离矩阵 0D,,只取三角阵由于其对称性 0距离矩阵 出距离最小的元素(如 i,j)合并成类 ),( 11131211 1算合并后的新类别之间的距离矩阵转向第二步,直至所有样品都聚为一类谱系聚类法平均距离法如何定义两类的距离P、 并为 的距离 2例: 对于 5种陨石样品分别测试 4种金属的含量,原始数据如下:编号 1 2 3 4A 100 80 70 60B 80 60 50 40C 80 70 40 50D 40 20 20 10E 50 10 20 10解: mj 2按 计算其距离矩阵如下:编号 A B C D B 4 0 . 0 0C 3 8 . 7 1 7 . 3 0D 1 1 0 . 4 7 0 . 7 7 8 . 1 0E 1 1 1 . 4 7 2 . 1 8 0 . 6 1 4 . 1 0例相距最近,合并为 D*, 02* 和 *, 和 B*合并为 A*,* 类分析谱系图距离A B C D *D*( a) 平均距离法 命令 计算距离矩阵 生成谱系数据 绘制谱系图 聚类分析 例题 : (5个陨石样品 , 四种元素 ) 最短距离法如何定义两类的距离H, 类类, m i 和 m ,m , m i n例讲:平均距离法对于 5种陨石样品分别测试 4种金属的含量。 将每个样本各自看成一类x2 x3 x4 0) 0) 0) 0) 0)60,70,80,1001 0,60,802 0,70,803 0,20,404 0,10,505 氏距离), D, 号 A B C D B 4 0 . 0 0C 3 8 . 7 1 7 . 3 0D 1 1 0 . 4 7 0 . 7 7 8 . 1 0E 1 1 1 . 4 7 2 . 1 8 0 . 6 1 4 . 1 0合并 00 G 与 001 ,* 0111* 解计算新类与其它类之间的距离,再合并编号 A B C D*A 0B 4 0 . 0 0C 3 8 . 7 1 7 . 0 0D* 1 1 0 . 4 7 0 . 7 7 8 . 1 0 1, 0m i n,m i n* m i n* m i n* 并 B,C; 112 ,* 12 G 12 * G 动态聚类分析谱系聚类分析的缺点: 样本一旦划分到某个类后就不变了;聚类过程需多次合并,计算量大。 基本思想:设定类别的数目,选择若干样本作为聚类中心;按聚类准则使所有样本向各自聚类中心聚集,从而得到初始分类判断初始分类是否合理,如不合理就修改分类,直至合理为止。 最短距离法 特点: 计算过程中各类重心和类别都可能变化动态聚类法 算法算法的步骤选 11211 , 逐个将需要的样品按最小距离分配给 1( 1) ,形成初始分类。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。