EN
页面导航
拉曼光谱

简介

拉曼光谱学为制药行业的质量控制、质量保证和生产可追溯性引入了全新有价值的分析能力。这对该行业目前实行的原料鉴定及验证带来了巨大的改变,通常在仓库中就可完成测试,而不需要将样品送到实验室。小型化和模块化的拉曼设备性能有了明显的提高,在多数情况下,能够得到与大型台式仪器和显微镜相同品质的数据。

拉曼光谱学是一种快速鉴别未知化合物的技术,并且是被广泛使用的便携式技术之一(如精细化学品测试、药物成分测量或药物化合物认证)。在许多公开的文献中讨论了拉曼光谱仪的经济性和其技术性优势,但是对于使用这项技术的许多用户(无论是新手还是有经验的人)来说,会令大家感到困惑的一个领域,就是如何使用不同的统计算法对光谱进行在线分析,及如何将结果呈现给用户。

在这篇文章中,我们将手持式拉曼光谱仪作为光谱数据决策的工具,来讨论其中两种较常见的数学表示:命中质量系数(HQI)和显著性水平(p值)。一般来说,HQI是优先被选择用来对未知材料进行数据库匹配的方法,而p值则适合用来对已知材料的身份进行验证。在这里我们将讨论对每个工具的具体举例说明。

数据库匹配

数据库匹配是光谱学中用于研究未知物质的一种行之有效的方法,常用于通过傅立叶变换红外光谱、近红外光谱或拉曼光谱来识别材料,一般会将未知样品的测量光谱与已知材料的经过验证的光谱库进行互相关联并比较,然后通过计算 HQI来量化每个潜在匹配的相关程度(相似度)。

301.png

HQI代表两个光谱之间相似度的系数,它等于未知材料光谱和光谱库点积的平方,除以光谱库的与自身的点积,再除以未知材料光谱与自身的点积。HOI的值应介于0到1.0之间,数值越大表示未知样品的光谱与已知参考光谱之间的相似度越高。当以100为比例时,完全匹配的结果将是100,这表明未知样品和参考光谱之间的相似度为 1。有了这些信息,如下图1所示,可以通过设置一个合适的HQI下限,由此来自动判定是否为“匹配/不匹配”,根据不同的应用,HQI的范围通常设置在 80到99 之间,而制药行业会将匹配HQI的下限设置为 95。值得注意的是,HQI衡量的不是有疑问材料的纯度,相反,它衡量的只是光谱库中参考光谱和未知样品的光谱之间的相关程度。

310.png

图1.屏幕截图显示的是在手持式产品的软件中使用调查模式(Investigation Mode)测试得到的结果,(左图)为与盐酸左氧氟沙星“匹配“的光谱,显示其 HOl为 99.859 和(右图)为"不匹配“的光谱。

同样重要并且需要注意的是,此相关技术并不能对匹配的准确率提供相关信息。另外,HQI对微小的光谱变化不是特别敏感,而且可能会导致被测样品被误认为其它相似的材料。因此,数据库匹配主要是被作为识别未知材料的工具来使用,人们需要将未知材料的光谱与几个有可能匹配的光谱进行快速比较,如表1所示。不建议用HQI对已知材料的身份进行鉴定;反而建议用p值来针对这种应用。

320.jpg

表 1.各种氨基酸的拉曼光谱之间相互对比的 HQI结果

身份验证

为了对"已知"材料的身份进行验证,就有必要使用更先进的统计方法,来确认该材料的准确率会高于某个阈值(通常置信度为 95%)。有多种数学方法可以用来对样品进行分类,每种方法都有不同程度的准确性和稳健性。在这篇文章中,我们将着重讨论由 Svante Wold 在 70~80 年代提出的簇类独立软模式法(SIMCA)。这种多元分析方法是一种被广泛使用的分类工具,它基于的是对每种材料建立主成分分析(PCA)模型,可用来模拟各个分类之间构成的差异。

SIMCA 的基础是先确定各个分类的相似性,这也使其成为验证已知混合物的理想方法。有关SIMCA方法的细节在文献中有了详尽的描述,可总结为以下几个步骤:

1.用经过认可的分析法(如色谱法或质谱法)验证过的1.材料来建立一组样本集,再用样本集对所需材料进行测量得到训练光谱集。

注意:样本集越大,就越具有代表性,后续得到的方法也就越稳健。在开发方法时,通常至少需要 20个光谱。当遇到原料有可变性时,用户也可选择增加额外的光谱,更多的样品光谱也可提高模型的稳健性。

2.用训练集建立一个主成分分析(PCA)模型,并根据95%的置信度来确定隶属范围。

3.测量一个新样品的光谱,并将其投射到PCA模型上:看它是否在模型的范围内。

一旦方法被建立,它的范围就由模型上的置信度区间来定义,这就为新样本测量结果提供了多元验收距离。当新样本被测量并投射到模型上时,将样本与模型的距离与可接受的范围(the Hotelling'sT2)进行比较,并由此来确定样本属于该分类的概率。它利用了T2分布和F分布之间的数学关系。因此,有可能计算出F值,这衡量的是在零假设下总体的变异性。然后,可通过F值来计算p值,可确定疑问材料是建立的模型时材料的概率,并定义材料验收的可接受边界。

p 值的定义为当假设对总体没有效果为真时,比你估计结果更过分的观察结果出现的概率(当对总体的衡量无效时,。因此,考虑假设:"标记为原料A的容器含有原料A",其中零假设(H0)为 H0=原料 A;而备择假设(H1)是 H1=非原料 A,p值代表的是如果零假设为真时,拒绝Ho的蕞小的显著性水平。因此,如果p值>0.05(代表95%的置信度),则接受产品,材料A被验证就是材料A;但如果p值<0.05,则材料A未被验证,则拒绝产品。

图3显示了L-丙氨酸(I)、L-天冬氨酸(I)和 L-半胱氨酸盐酸盐(I)三种方法测试的结果,这些方法是在BWTEK手持拉曼系统中建立的。需要指出的是,因为它们的结构有很大的不同,也可以用 HQI值来明确地识别,如前面表 1所示。

330.jpg

图 2.用于测试的三种氨基酸对应的化学结构

图 3a 显示了典型的叠加光谱,可用于为每种材料建立对应方法。图3b 显示了所有三种材料的PCA得分图,说明材料在多元空间中被分离成独特的簇,可在概览图中进行分析。蕞后,图 3c 显示了包含每种材料的三个测量值投射到盐酸半胱氨酸方法 PCA 模型的测试集。所有三种半脱氨酸盐酸盐样品都落在置信区间内,而其他六个测试光谱在 95%的置信度(定义显著性水平为5%)下明显在Hotelling’sT2椭圆型的外侧。对其他两种氨基酸使用该方法也得到了相似的结果。

340.jpg

350.jpg

图 3.L-丙氨酸、L-天冬氨酸和 L-半胱氨酸盐酸盐的拉曼光谱(a)所有三个样品的 PCA 得分图显示了独特的簇(b),PCA得分图显示的是基于 SIMCA 识别为 L-半胱氨酸盐酸盐的结果(c)

如图 4 所示,在分析测量光谱时,该结果可用于对判定"匹配"/"不匹配"进行统计确定。在这种情况下,建立方法所使用的显著性水平作为可接受的闽值同数据库匹配中的HQI下限一样起到了相似的作用。为了汇总这些模型的结果并展示其特异性,表2中显示的是一个近似性矩阵,它表明当测试样品逐一与三种方法进行比对时,每一种样品都能和其对应正确的方法匹配。

360.png

图4.阿司匹林识别为"匹配“的截图,显示p值=0.161881(左图)阿司匹林识别为"不匹配“的截图(右图),显示p值=7.59258x10-12

370.jpg

表 2.氨基酸的拉曼光谱经相互比对的p值结果


碳酸钾和其水合物的鉴别

对于化学性质相似的材料,相关性方法可能无法提供明确的鉴定结果,因为相似的光谱可能会使得到的 HQI值只有轻微的差异。而相关性是由光谱中占主要地位的信号来决定的。事实证明,使用多元模型和p值可接受准则可以得到更加明确和可靠的分析结果。

碳酸钾 (KCO3)(IV)与碳酸钾一点五水合物(K2CO1.5 H2O)(V)的鉴别就是一个很好的例子(图5),它们的区别仅仅在于存在 1.5 个水分子。两者的拉曼光谱非常相似,都是由 1060cm-1处的同相CO3伸缩振动所主宰,如图6所示。碳酸钾一点五水合物在 700cm-1附近有多个CO3离面变形导致的多个带宽,而碳酸钾中 688cm-1被看作为单峰。是因为HQI基于的是光谱相关性,它对数据的细微变化不敏感,两种化合物材料的 HQI值都>96,因此利用 HQI进行明确的鉴定是很困难的,如表3所示。

380.png

图 5.碳酸钾和碳酸钾一点五水合物的化学结构。

390.jpg

图 6.碳酸钾(红色)和碳酸钾一点五水合物(蓝色)的拉曼光谱。

391.jpg

表3.利用光谱库匹配测试样品得到的 HQI值


为了进一步分析这些化合物,我们为每种材料建立对应的方法。对每种材料分别制作4个样品,对样品采集20张拉曼光谱,建立方法的人在完成20 次扫描后可根据光谱数据自动生成 PCA 模型,并且模型排序使得90%的光谱差异可以得到解释。

然后用识别模式对样品进行测试,该模式自动将新采集的拉曼光谱投射到选定的 PCA模型(方法)上,并根据样本与方法匹配的概率(基于置信度为 95%)来报告“匹配/不匹配”的结果。当得到一个"不匹配"的结果时,系统会自动进行光谱库搜索,并显示可能的匹配结果,HQI结果是通过将样品与系统光谱库和方法库中的材料对比得到的。

在为每种化合物建立方法后,用 BWTEK手持拉曼系统对每种化合物的 5个样品进行测试。表4中显示的结果明确显示,使用 SIMCA方法进行材料分类,拉曼光谱学能够用于鉴定碳酸钾及其水合物。

392.jpg

表 4.在鉴定模式下对给定方法进行测试的样本的P值汇总

结论

目前的拉曼光谱分析仪可使用处理算法来自动进行复杂的分析,使这些工具对普通用户来说更容易使用。然而,对各种算法的优点和缺点理解得不清楚,也会导致对该技术的误用。因此,基于测试目的来理解光谱分析的相关性和多元方法都有哪些优点和缺点是非常重要的。HOI允许将光谱与大量的光谱库进行快速比对,使其成为分析未知材料的理想方法,而p值是验证和/或鉴定"已知"材料身份的理想方法。多元分析为光谱鉴别的验证提供了一种行之有效的方法,并在区分具有相似结构的化合物方面有额外的优势。

参考文献