了解代谢组学技术之谈一谈批次效应
时间:2021-01-18 来源:深圳脉图 作者:小脉

导语
高通量的检测技术有时会带来一些系统性误差,例如“批次效应(Batch Effect)”,因此研究人员在开始代谢组学数据分析之前通常需要对数据进行考察,必要时通过数据处理来消除其对数据分析结果的潜在影响。本期内容由脉图研发部门分享代谢组学生物信息分析技术中关于“批次效应”的相关知识,欢迎持续关注“脉图健康”,更多精彩陆续推出。

关键词:批次效应;实验设计;数据处理

什么是批次效应?
批次效应是指样品在不同批次处理和测量中产生的与生物复杂性无关的差异。批次效应产生怎样的影响?首先,在特征选择中,跟批次相关变化的权重会降低,同时导致实验可重现性降低。其次, 基于含有批次效应数据进行建模的分类器的泛化能力也会不同程度的降低,同时也会降低分类器模型对于相似数据的拟合以及验证能力。

批次效应是如何产生的?
由于高精度的质谱仪能够在复杂的生物样本中一次性检测出成千上万种不同物质的特征信息,因此在每次检测中都会产生大量的反应生物样本状态的数据,例如质荷比,保留时间和信号强度等。当样本数量过大,受到样本上机效率的限制、大量样本必须分批次进行上机检测时,即便检测设备、环境都保持不变,不同批次的样本的检测数据间也会不可避免地出现与原始样本中的生物学差异无关的误差。

如何发现批次效应?
利用对样本或者代谢物(特征)的强度直方图,箱型图和主成分分析图等技术方法能够对数据是否受到批次效应影响进行直观或者放大观测。除此之外,对样本进行HCA(Hierarchy Clustering Analysis)以及分组注释信息的可视化也能观察到样本是否受到批次的影响。

如何处理和应对批次效应?
为了应对批次效应对分析结果的影响,我们可以从实验设计和数据处理过程中进行相应的步骤来尽可能消除或者降低批次效应对于数据质量造成影响。

实验设计

  • 如果样本数量较小,可以对所有样本进行统一上机,不必拆分到不同的检测批次。
  • 如果样本数量大,超出设备单次可检测的限制,可以对不同来源、不同分组信息的样本进行上机序列的随机化操作,最大程度的减小因为检测序列造成的对样本的数据差异判断的影响。
  • 如果涉及较大项目,建议在耗材的选择上进行规范及长程规划。如有涉及采血的实验,尽量使用同一厂家、同一批次的采血管。
  • 加入适当频率的同源的内参物,以此来直观观测及对批次效应进行校正。

常用数据处理方法
均一化(Normalization):该方法旨在调整数据分布的形态,使其分布更符合正态分布,主要针对的样本本身。在代谢组学中,最常用的均一化方法有基于样本中位值(bymedian)、样本总强度(by sum)、样本分位数(by quantile)、指定样本(byspecific sample)及指定均一化系数(byspecific normalization factor)等。需注意的是,由于样本数据会因为样本前处理质控水平、样本种类、样本品质、批次间时间/地区跨度, 机器设备维护状态等诸多因素而呈现不同的状态,所以均一化的方法并不是一成不变,即使所有条件都相同,也建议尝试使用不同的均一化方法来修整数据,通过对比评估选择最佳的方法。
归一化(Scaling):该方法旨在调整数据的范围,主要针对的是数据集中的特征。由于通常代谢数据的维度较高,然而不同特征所处的强度可能不在同一范围,如果将未做归一化的样本进行机器学习及建模,可能会导致噪音、非生物性、非研究对象的特征对分类器的模型贡献(loading)大于具有真正研究意义的特征,从而影响模型结果,误导判断。常用的归一化方法有autoscaling、 mean centering、pareto scaling 及vast scaling等。
转换(Transformation):该方法旨在将离散的数据尽可能聚合,稳定方差。转换方法对样本及特征都会产生较大影响。常用的方法有对数(log)和立方根(cubic root)转换。

结束语
高精度和高通量的检测方法为代谢组学研究带来了大量的生物样本特征数据信息,一方面极大拓展了可研究的内容,迅速缩短项目研究周期;但另一方面,大量的生物样本特征检测数据的产出也为数据处理分析技术带来了更严峻的挑战。

传统的数据统计分析方法难以满足现代代谢组学技术的研究要求,必须借助先进的计算机技术和大数据分析方法、甚至构建数据模型来深入解读数据信息所富含的生物学意义。

关于脉图
脉图依托于现代先进的高分辨、高精度质谱技术,建立了代谢组学技术研究平台,专注于获取高质量的代谢组学数据,推动代谢组学技术在医疗健康、农业和食品、认证鉴定等领域的广泛应用。

脉图优势
脉图拥有LC-Orbitrap-MS和GC-TOF-MS两种高分辨质谱检测平台与世界级的代谢物标准品数据库,可以更快、更精确和更全面地鉴定样品中的代谢物。我们独家研发、整合分析不同质控数据的算法,可以最大程度反映出样品的生物性、降低检测噪音,从一份样品中检测>5000 具有高度可比性的代谢信息。

参考文献: Xia, Jianguo, and David S. Wishart. "UsingMetaboAnalyst 3.0 for comprehensive metabolomics dataanalysis." Current protocols inbioinformatics 55.1 (2016): 14-10.

相关新闻
关于脉图
追求最好的代谢组学,服务更好的人类健康
联系我们
开放交流 合作共赢
如您想和我们建立合作,或对我们的产品和服务感兴趣,欢迎直接联系我们或在下方留言,我们会及时与您取得联系。


哈尔滨脉图精准技术有限公司

Metanotitia Inc.

  • 服务热线

    0451-51021416
  • E-mail

    Info@metanotitia.com
  • 总部地址

    哈尔滨市松北区智谷大街288号深圳(哈尔滨)产业园区科创总部6号楼C4栋3-4层
  • 与我们交流
  • 请确认以上信息是否有误,以便我们能够准确对接。
    顶部