生物解码 – BioDecoded — at the intersection of biomedicine and computing

每日文摘 | 2024年04月28日

Analysis and benchmarking of small and large genomic variants across tandem repeats | Nature Biotechnology

串联重复序列 (TR) 在人类基因组中具有高度多态性，具有数千个相关分子特征，并与 60 多种疾病表型相关。然而，由于变异检测和代表性方面的挑战，以及缺乏全基因组标准，它们经常被排除在大规模研究之外。在这里，为了促进 TR 方法的发展，研究人员创建了 TR 区域目录，并探索了 86 个单倍型解析的长读人类组装体的 TR 特性。他们汇编了 Genome in a Bottle (GIAB) HG002 个体的变体，以创建 TR 数据集来对现有和未来的 TR 分析方法进行基准测试。

Development and validation of AI/ML derived splice-switching oligonucleotides | Molecular Systems Biology

剪接转换寡核苷酸 (splice-switching oligonucleotides, SSO) 是反义化合物，直接作用于前 mRNA 以调节选择性剪接 (AS)。这项研究证明了人工智能/机器学习 (AI/ML) 在识别功能性、可验证性和治疗性 SSO 方面的价值。研究人员使用剪接因子 (SF) mRNA 前体结合谱和剪接体组装信息训练 XGboost 树模型，以识别前 mRNA 上的调节性 SSO 结合位点。利用 Shapley 和 out-of-bag 分析，他们还预测了特定 SF 的身份，这些 SF 与前 mRNA 的结合被 SSO 阻断。

Transparent medical image AI via an image–text foundation model grounded in medical literature | Nature Medicine

构建值得信赖且透明的基于图像的医疗人工智能 (AI) 系统需要能够在开发流程的各个阶段（从训练模型到部署后监控）询问数据和模型。理想情况下，数据和相关的人工智能系统可以使用医生已经熟悉的术语来描述，但这需要用语义上有意义的概念密集注释的医疗数据集。在本研究中，研究人员提出了一种名为 MONET（医学概念检索器）的基础模型方法，该方法学习如何将医学图像与文本连接起来，并对图像的概念存在进行密集评分，以实现医疗人工智能开发和部署中的重要任务，例如数据审计、模型审核和模型解释。由于疾病、肤色和成像方式的异质性，皮肤科为 MONET 的多功能性提供了要求严格的用例。他们根据 105,550 张皮肤病图像以及大量医学文献中的自然语言描述来训练 MONET。 MONET 可以准确注释经委员会认证的皮肤科医生验证的皮肤病学图像中的概念，与基于先前概念注释的临床图像皮肤病学数据集构建的监督模型竞争。

每日文摘 | 2024年04月27日

Large language models for preventing medication direction errors in online pharmacies | Nature Medicine

药房用药说明中的错误，例如剂量或频率的错误说明，可能会增加药物不良事件的发生机会，从而大大增加患者的安全风险。本研究探讨了如何将领域知识与能够进行复杂文本解释和生成的大型语言模型 (LLM) 相结合来减少这些错误。研究人员推出了 MEDIC (medication direction copilot)，这是一个通过优先考虑处方核心临床组成部分（例如剂量和频率）的精确沟通来模拟药剂师推理的系统。

CASCC: a co-expression assisted single-cell RNA-seq data clustering method | Bioinformatics

用于通过单细胞 RNA 测序表征细胞群的现有聚类方法受到一些限制，这些限制源于聚类通常不能同质的事实，特别是对于过渡群体。另一方面，可以使用与分区无关的方法通过其强大的基因共表达特征来独立地鉴定样品中的优势细胞群。在这里，研究人员介绍了一种聚类方法 CASCC，旨在利用无监督自适应吸引子算法识别的基因共表达特征来提高生物学准确性。

Virtual reality-empowered deep-learning analysis of brain cells | Nature Methods

研究人员创建了 DELiVR，这是一个用于 3D 脑细胞映射的深度学习管道，使用虚拟现实生成的参考注释进行训练。它可以通过开源软件 Fiji 的用户友好界面进行部署，这使得没有计算专业知识的科学家可以广泛地进行大规模 3D 大脑图像的分析。

每日文摘 | 2024年04月26日

Computational scoring and experimental evaluation of enzymes generated by neural networks | Nature Biotechnology

近年来，已经开发了生成蛋白质序列模型来对新序列进行采样。然而，预测生成的蛋白质是否会折叠和发挥作用仍然具有挑战性。研究人员评估了一组 20 种不同的计算指标，以评估三种对比生成模型产生的酶序列的质量：祖先序列重建、生成对抗网络和蛋白质语言模型。

Measuring, visualizing, and diagnosing reference bias with biastools | Genome Biology

许多生物信息学方法试图减少参考偏差，但不存在全面测量参考偏差的方法。 Biastools 对参考偏差的实例进行分析和分类。

Causal machine learning for predicting treatment outcomes | Nature Medicine

因果机器学习提供灵活的数据驱动方法来预测治疗结果（包括疗效和毒性），从而支持药物的评估和安全性。因果机器学习的一个主要好处是它可以估计个体化治疗效果，以便可以根据个体患者的情况制定个性化的临床决策。在本视角中，作者讨论了因果机器学习（相对于传统统计或机器学习方法）的好处，并概述了关键组成部分和步骤。

每日文摘 | 2024年04月25日

De novo and somatic structural variant discovery with SVision-pro | Nature Biotechnology

基于长读的从头和体细胞结构变异发现仍然具有挑战性，需要样本之间的基因组比较。研究人员开发了 SVision-pro，这是一种基于神经网络的实例分割框架，可以直观地表示基因组到基因组级别的测序差异，并在没有任何推理模型先决条件的情况下比较地发现基因组之间的结构变异。

Multi-omic integration of microbiome data for identifying disease-associated modules | Nature Communications

人类肠道微生物组的多组学研究对于了解其在多个功能层疾病中的作用至关重要。然而，整合和分析如此复杂的数据集带来了巨大的挑战。最值得注意的是，当前的分析方法通常会产生广泛的疾病相关特征（例如物种、途径或代谢物）列表，但无法捕获数据的多层结构。在这里，研究人员通过引入“MintTea”来应对这一挑战，这是一种基于中间集成的方法，结合了规范相关分析扩展、共识分析和评估协议。 MintTea 识别出“与疾病相关的多组学模块”，包括来自多个组学的特征，这些特征一致变化并且共同与疾病相关。 MintTea 应用于不同的队列，捕获的模块具有高预测能力、显著的跨组学相关性以及与已知微生物组与疾病关联的一致性。

Single-cell multi-ome regression models identify functional and disease-associated enhancers and enable chromatin potential analysis | Nature Genetics

研究人员提出了一种基因级调控模型，即 single-cell ATAC + RNA linking (SCARlink)，该模型可预测单细胞基因表达，并使用多组（scRNA-seq 和 scATAC–seq 联合测定）测序将增强子与目标基因连接起来数据。该方法使用可访问性数据的正则化泊松回归来联合模拟基因位点的所有调控效应，避免了成对基因-峰相关性和对峰检测的依赖的限制。

每日文摘 | 2024年04月24日

Generative models improve fairness of medical classifiers under distribution shifts | Nature Medicine

领域泛化是医疗保健领域机器学习面临的普遍挑战。由于部署和开发期间遇到的数据之间存在差异，实际条件下的模型性能可能低于预期。模型开发过程中某些群体或条件的代表性不足是造成这种现象的常见原因。这一挑战通常无法通过专家临床医生的有针对性的数据采集和“标记”来轻松解决，由于条件的稀有或可用的临床专业知识，这可能非常昂贵或实际上是不可能的。研究人员假设，生成人工智能的进步可以帮助以可引导的方式缓解这种未满足的需求，通过合成示例丰富训练数据集，解决代表性不足的条件或子群体的不足。

Single Cell Atlas: a single-cell multi-omics human cell encyclopedia | Genome Biology

单细胞测序数据集是生物学和医学领域的关键，能够以前所未有的分辨率深入了解异质细胞群。在这里，研究人员通过对来自 125 个健康成人和胎儿组织的五个单细胞组学、空间转录组学和两个批量组学的数据集进行深入表征，构建了人体组织的单细胞多组学图谱。他们构建了其补充的基于网络的平台，即单细胞图谱（SCA，www.singlecellatlas.org），以实现对人类胎儿和成人组织的深层多组学特征的大量交互式数据探索。

brainlife.io: a decentralized and open-source cloud platform to support neuroscience research | Nature Methods

神经科学正在推进标准化和工具开发，以支持严谨性和透明度。因此，数据管道的复杂性增加了，阻碍了公平（可查找、可访问、可互操作和可重用）访问。 Brainlife.io 平台提供数据标准化、管理、可视化和处理，并自动跟踪数千个数据对象的来源历史。

每日文摘 | 2024年04月23日

Pretraining a foundation model for generalizable fluorescence microscopy-based image restoration | Nature Methods

基于荧光显微镜的图像恢复在生命科学领域受到了广泛关注，并得益于深度学习技术取得了重大进展。然而，当前大多数特定任务的方法对于不同的基于荧光显微镜的图像恢复问题的通用性有限。在这里，研究人员寻求提高普遍性，并探索将预训练基础模型应用于基于荧光显微镜的图像恢复的潜力。他们提供了一种 universal fluorescence microscopy-based image restoration (UniFMIR) 模型来解决不同的恢复问题，并表明 UniFMIR 提供更高的图像恢复精度、更好的泛化性和增强的多功能性。

Prediction of protein-RNA interactions from single-cell transcriptomic data | Nucleic Acids Research

蛋白质对于调节 RNA 生命的各个方面都至关重要，但对它们与编码和非编码 RNA 的相互作用的了解仍然有限。实验研究通常仅限于少量细胞系和有限的一组 RNA 结合蛋白 (RBP)。尽管基于物理化学原理的计算方法可以准确预测蛋白质-RNA 相互作用，但它们通常缺乏考虑细胞类型特异性基因表达和更广泛的基因调控网络 (GRN) 背景的能力。在这里，研究人员评估了几种 GRN 推理算法在从单细胞转录组数据预测蛋白质-RNA 相互作用方面的性能，并提出了一个名为 scRAPID (single-cell transcriptomic-based RnA Protein Interaction Detection) 的管道，它将这些方法与catRAPID算法，可以识别RBP和RNA分子之间的直接物理相互作用。

Demographic bias in misdiagnosis by computational pathology models | Nature Medicine

尽管监管部门的批准数量不断增加，但基于深度学习的计算病理学系统常常忽视人口因素对性能的影响，可能导致偏差。由于计算病理学利用了无法代表某些人口群体的大型公共数据集，因此这种担忧变得更加重要。作者利用来自 The Cancer Genome Atlas 和 EBRAINS 脑肿瘤图谱的公开数据以及内部患者数据表明，当用于对乳腺癌和肺癌进行亚型分类和预测神经胶质瘤中的 IDH1 突变时，whole-slide 图像分类模型在不同人口群体中显示出显著的性能差异。

每日文摘 | 2024年04月22日

SQANTI3: curation of long-read transcriptomes for accurate identification of known and novel isoforms | Nature Methods

SQANTI3 是一款专为对通过第三代测序技术获得的长读转录本模型进行质量控制、管理和注释而设计的工具。 SQANTI3 利用其注释框架计算转录模型、连接点和转录末端的质量描述符。有了这些信息，就可以识别潜在的伪影并用可靠的序列替换。

DANCE: a deep learning library and benchmark platform for single-cell analysis | Genome Biology

DANCE 是第一个标准、通用且可扩展的基准平台，用于访问和评估众多单细胞分析任务的基准数据集范围内的计算方法。目前，DANCE 支持 3 个模块和 8 个流行任务，在 21 个基准数据集上使用 32 种最先进的方法。

Towards a general-purpose foundation model for computational pathology | Nature Medicine

组织图像的定量评估对于计算病理学 (CPath) 任务至关重要，需要从 whole-slide images (WSIs) 中客观表征组织病理学实体。 WSI 的高分辨率和形态特征的可变性提出了重大挑战，使高性能应用的大规模数据注释变得复杂。为了应对这一挑战，当前的努力提出通过自然图像数据集的迁移学习或对公开的组织病理学数据集的自我监督学习来使用预训练的图像编码器，但尚未在不同的组织类型中大规模地广泛开发和评估。研究人员推出了 UNI，这是一种通用的病理学自监督模型，使用来自 20 个主要组织类型的 100,000 多个诊断 H&E 染色 WSI（>77TB 数据）的 1 亿多张图像进行预训练。

每日文摘 | 2024年04月21日

A visual-language foundation model for computational pathology | Nature Medicine

数字病理学的加速采用和深度学习的进步使得能够为各种疾病和患者群体的各种病理学任务开发强大的模型。研究人员引入了 CONtrastive learning from Captions for Histopathology (CONCH)，这是一种视觉语言基础模型，使用多种来源的组织病理学图像、生物医学文本，尤其是通过与任务无关的预训练超过 117 万个图像标识对而开发。 CONCH 根据一套 14 个不同的基准进行评估，可以转移到涉及组织病理学图像和/或文本的广泛下游任务，在组织学图像分类、分割、字幕和文本转换方面实现最先进的性能-图像和图像到文本的检索。

Domain-specific optimization and diverse evaluation of self-supervised models for histopathology | arXiv

组织病理学中特定任务的深度学习模型为改善诊断、临床研究和精准医疗提供了有希望的机会。然而，此类模型的开发通常受到高质量数据可用性的限制。组织病理学中的基础模型可以学习各种组织类型、诊断和放大的一般表示，有可能减少开发具有所需模型性能水平的特定任务深度学习模型所需的数据、计算和技术专业知识。在这项工作中，研究人员描述了通过自我监督学习组织病理学基础模型的开发和评估。

Tradeoffs in alignment and assembly-based methods for structural variant detection with long-read sequencing data | Nature Communications

长读长测序提供长的连续 DNA 片段，促进二倍体基因组组装和结构变异结构变异检测。高效且强大的结构变异识别算法对于提高数据可用性至关重要。在这里，研究人员系统地比较了 14 种基于读取比对的结构变异识别方法（包括 4 种基于深度学习的方法和 1 种混合方法）和 4 种基于组装的结构变异识别方法，以及 4 种上游对齐器和 7 种组装器。

每日文摘 | 2024年04月20日

Development and validation of a new algorithm for improved cardiovascular risk prediction | Nature Medicine

QRISK 算法使用数百万人的数据来帮助临床医生识别心血管疾病高风险人群。在这里，研究人员推导出并在外部验证了一种新算法 QR4，该算法结合了新的风险因素，可以分别估计男性和女性的 10 年心血管疾病风险。来自英国 998 万和 679 万成年人的健康数据分别用于算法的推导和验证。

Benchmarking bioinformatic virus identification tools using real-world metagenomic data across biomes | Genome Biology

由于大多数病毒尚未培养，宏基因组学是目前发现病毒的主要方法。在宏基因组数据中检测病毒并非易事。在过去的几年里，许多生物信息病毒识别工具已经被开发用于这项任务，这使得选择正确的工具、参数和截止值变得具有挑战性。由于所有这些工具测量不同的生物信号，并使用不同的算法以及训练和参考数据库，因此必须进行独立的基准测试以给用户客观的指导。研究人员比较了九种最先进的病毒识别工具在十三种模式下对来自三个不同生物群落的八对病毒和微生物数据集的性能，其中包括来自南极沿海水域的新的复杂数据集。

spVC for the detection and interpretation of spatial gene expression variation | Genome Biology

空间分辨转录组学技术为理解空间背景下基因表达异质性开辟了新途径。然而，现有的识别空间可变基因的方法通常只关注统计显著性，限制了它们捕获连续表达模式和整合点级协变量的能力。为了应对这些挑战，研究人员引入了 spVC，这是一种基于广义泊松模型的统计方法。 spVC 无缝集成协变量的恒定和空间变化效应，促进对基因表达变异性的全面探索并增强可解释性。

每日文摘 | 2024年04月19日

Benchmarking spatial clustering methods with spatially resolved transcriptomics data | Nature Methods

空间聚类与单细胞聚类相似，利用空间解析转录组学数据将组织生理学研究的范围从细胞质心扩展到结构质心。近年来计算方法取得了显着的发展，但仍然缺乏全面的基准研究。在这里，研究人员针对 34 个空间解析转录组学数据（7 个数据集）提出了 13 种计算方法的基准研究。根据准确性、空间连续性、标记基因检测、可扩展性和鲁棒性来评估性能。

Prediction of metabolites associated with somatic mutations in cancers by using genome-scale metabolic models and mutation data | Genome Biology

肿瘤代谢物通常是由基因突变产生的，当在癌细胞中异常积累时表现出促癌功能。在这里，研究人员报告了预测代谢物基因途径集的计算工作流程的开发。代谢物基因途径集呈现与癌症中特定体细胞突变显著相关的代谢物和代谢途径。计算工作流程使用癌症患者特异性基因组规模代谢模型和突变数据来生成代谢物基因通路集。

Interrogations of single-cell RNA splicing landscapes with SCASL define new cell identities with physiological relevance | Nature Communications

RNA 剪接塑造了各种生理和疾病过程背后的基因调控程序。在这里，研究人员提出了 SCASL (single-cell clustering based on alternative splicing landscapes) 方法，用于使用单细胞 RNA-seq 数据询问 RNA 剪接的异质性。 SCASL解决了单细胞RNA剪接数据覆盖偏差和稀疏的问题，并为细胞身份分类提供了一种新方案。