生物解码 – BioDecoded — at the intersection of biomedicine and computing

每日文摘 | 2024年04月30日

Genome assembly in the telomere-to-telomere era | Nature Reviews Genetics

基因组序列在很大程度上决定了生物体的生物学特性并编码了生物体的历史，而从头组装（从测序读数重建生物体基因组序列的过程）四十年来一直是生物信息学的中心问题。直到最近，基因组通常最多只能组装成几兆碱基的片段，但现在长读长测序技术的进步使得许多生物体的每条染色体几乎完全组装（也称为端粒到端粒组装）。在这里，作者回顾了组装算法和协议的最新进展，重点是如何衍生近端粒到端粒的组装。

hadge: a comprehensive pipeline for donor deconvolution in single-cell studies | Genome Biology

单细胞多重技术（细胞散列和遗传多重）结合多个样本，优化样本处理并降低成本。细胞散列将抗体标签或化学寡核苷酸缀合到细胞膜上，而基因多重分析允许混合遗传多样性的样本，并依赖于已知基因组坐标处 RNA 读数的聚合。研究人员开发了 hadge (hashing deconvolution combined with genotype information)，这是一种 Nextflow 计算流程，它结合了 12 种方法来执行基于哈希和基因型的反卷积。

Prospective de novo drug design with deep interactome learning | Nature Communications

从头药物设计旨在从头开始生成具有特定化学和药理学特性的分子。研究人员提出了一种利用基于相互作用组的深度学习来基于配体和结构生成药物样分子的计算方法。这种方法利用了图神经网络和化学语言模型的独特优势，为特定应用的强化、迁移或几次学习的需求提供了替代方案。它能够“零次”构建具有特定生物活性、可合成性和结构新颖性的化合物库。

每日文摘 | 2024年04月29日

Single-cell immune repertoire analysis | Nature Methods

单细胞 T 细胞和 B 细胞抗原受体测序数据分析有可能对适应性免疫细胞进行深入评估，为了解免疫细胞发育、跟踪疾病和治疗中的克隆扩张提供信息。然而，由于数据的复杂性和基础生物学的复杂性，在单细胞水平上分析和解释 T 细胞和 B 细胞及其适应性免疫受体库一直极具挑战性。在这篇综述中，作者深入研究了改变单细胞 T 细胞和 B 细胞抗原受体测序数据分析的计算突破。

scLENS: data-driven signal detection for unbiased scRNA-seq data analysis | Nature Communications

高维度和噪声限制了 scRNA-seq 数据中可以发现的新生物学见解。虽然已经开发了降维工具来从数据中提取生物信号，但它们通常需要手动确定信号维度，从而引入用户偏差。此外，常见的数据预处理方法（对数归一化）可能会无意中扭曲数据中的信号。在这里，研究人员开发了 scLENS，这是一种降维工具，可以解决长期存在的信号失真和手动输入问题。

NextDenovo: an efficient error correction and accurate assembly tool for noisy long reads | Genome Biology

长读长测序数据，特别是来自牛津纳米孔测序平台的数据，往往会表现出较高的错误率。在这里，研究人员展示了 NextDenovo，这是一种针对嘈杂的长读取的高效纠错和组装工具，可实现基因组组装的高准确度。

每日文摘 | 2024年04月28日

Analysis and benchmarking of small and large genomic variants across tandem repeats | Nature Biotechnology

串联重复序列 (TR) 在人类基因组中具有高度多态性，具有数千个相关分子特征，并与 60 多种疾病表型相关。然而，由于变异检测和代表性方面的挑战，以及缺乏全基因组标准，它们经常被排除在大规模研究之外。在这里，为了促进 TR 方法的发展，研究人员创建了 TR 区域目录，并探索了 86 个单倍型解析的长读人类组装体的 TR 特性。他们汇编了 Genome in a Bottle (GIAB) HG002 个体的变体，以创建 TR 数据集来对现有和未来的 TR 分析方法进行基准测试。

Development and validation of AI/ML derived splice-switching oligonucleotides | Molecular Systems Biology

剪接转换寡核苷酸 (splice-switching oligonucleotides, SSO) 是反义化合物，直接作用于前 mRNA 以调节选择性剪接 (AS)。这项研究证明了人工智能/机器学习 (AI/ML) 在识别功能性、可验证性和治疗性 SSO 方面的价值。研究人员使用剪接因子 (SF) mRNA 前体结合谱和剪接体组装信息训练 XGboost 树模型，以识别前 mRNA 上的调节性 SSO 结合位点。利用 Shapley 和 out-of-bag 分析，他们还预测了特定 SF 的身份，这些 SF 与前 mRNA 的结合被 SSO 阻断。

Transparent medical image AI via an image–text foundation model grounded in medical literature | Nature Medicine

构建值得信赖且透明的基于图像的医疗人工智能 (AI) 系统需要能够在开发流程的各个阶段（从训练模型到部署后监控）询问数据和模型。理想情况下，数据和相关的人工智能系统可以使用医生已经熟悉的术语来描述，但这需要用语义上有意义的概念密集注释的医疗数据集。在本研究中，研究人员提出了一种名为 MONET（医学概念检索器）的基础模型方法，该方法学习如何将医学图像与文本连接起来，并对图像的概念存在进行密集评分，以实现医疗人工智能开发和部署中的重要任务，例如数据审计、模型审核和模型解释。由于疾病、肤色和成像方式的异质性，皮肤科为 MONET 的多功能性提供了要求严格的用例。他们根据 105,550 张皮肤病图像以及大量医学文献中的自然语言描述来训练 MONET。 MONET 可以准确注释经委员会认证的皮肤科医生验证的皮肤病学图像中的概念，与基于先前概念注释的临床图像皮肤病学数据集构建的监督模型竞争。

每日文摘 | 2024年04月27日

Large language models for preventing medication direction errors in online pharmacies | Nature Medicine

药房用药说明中的错误，例如剂量或频率的错误说明，可能会增加药物不良事件的发生机会，从而大大增加患者的安全风险。本研究探讨了如何将领域知识与能够进行复杂文本解释和生成的大型语言模型 (LLM) 相结合来减少这些错误。研究人员推出了 MEDIC (medication direction copilot)，这是一个通过优先考虑处方核心临床组成部分（例如剂量和频率）的精确沟通来模拟药剂师推理的系统。

CASCC: a co-expression assisted single-cell RNA-seq data clustering method | Bioinformatics

用于通过单细胞 RNA 测序表征细胞群的现有聚类方法受到一些限制，这些限制源于聚类通常不能同质的事实，特别是对于过渡群体。另一方面，可以使用与分区无关的方法通过其强大的基因共表达特征来独立地鉴定样品中的优势细胞群。在这里，研究人员介绍了一种聚类方法 CASCC，旨在利用无监督自适应吸引子算法识别的基因共表达特征来提高生物学准确性。

Virtual reality-empowered deep-learning analysis of brain cells | Nature Methods

研究人员创建了 DELiVR，这是一个用于 3D 脑细胞映射的深度学习管道，使用虚拟现实生成的参考注释进行训练。它可以通过开源软件 Fiji 的用户友好界面进行部署，这使得没有计算专业知识的科学家可以广泛地进行大规模 3D 大脑图像的分析。

每日文摘 | 2024年04月26日

Computational scoring and experimental evaluation of enzymes generated by neural networks | Nature Biotechnology

近年来，已经开发了生成蛋白质序列模型来对新序列进行采样。然而，预测生成的蛋白质是否会折叠和发挥作用仍然具有挑战性。研究人员评估了一组 20 种不同的计算指标，以评估三种对比生成模型产生的酶序列的质量：祖先序列重建、生成对抗网络和蛋白质语言模型。

Measuring, visualizing, and diagnosing reference bias with biastools | Genome Biology

许多生物信息学方法试图减少参考偏差，但不存在全面测量参考偏差的方法。 Biastools 对参考偏差的实例进行分析和分类。

Causal machine learning for predicting treatment outcomes | Nature Medicine

因果机器学习提供灵活的数据驱动方法来预测治疗结果（包括疗效和毒性），从而支持药物的评估和安全性。因果机器学习的一个主要好处是它可以估计个体化治疗效果，以便可以根据个体患者的情况制定个性化的临床决策。在本视角中，作者讨论了因果机器学习（相对于传统统计或机器学习方法）的好处，并概述了关键组成部分和步骤。

每日文摘 | 2024年04月25日

De novo and somatic structural variant discovery with SVision-pro | Nature Biotechnology

基于长读的从头和体细胞结构变异发现仍然具有挑战性，需要样本之间的基因组比较。研究人员开发了 SVision-pro，这是一种基于神经网络的实例分割框架，可以直观地表示基因组到基因组级别的测序差异，并在没有任何推理模型先决条件的情况下比较地发现基因组之间的结构变异。

Multi-omic integration of microbiome data for identifying disease-associated modules | Nature Communications

人类肠道微生物组的多组学研究对于了解其在多个功能层疾病中的作用至关重要。然而，整合和分析如此复杂的数据集带来了巨大的挑战。最值得注意的是，当前的分析方法通常会产生广泛的疾病相关特征（例如物种、途径或代谢物）列表，但无法捕获数据的多层结构。在这里，研究人员通过引入“MintTea”来应对这一挑战，这是一种基于中间集成的方法，结合了规范相关分析扩展、共识分析和评估协议。 MintTea 识别出“与疾病相关的多组学模块”，包括来自多个组学的特征，这些特征一致变化并且共同与疾病相关。 MintTea 应用于不同的队列，捕获的模块具有高预测能力、显著的跨组学相关性以及与已知微生物组与疾病关联的一致性。

Single-cell multi-ome regression models identify functional and disease-associated enhancers and enable chromatin potential analysis | Nature Genetics

研究人员提出了一种基因级调控模型，即 single-cell ATAC + RNA linking (SCARlink)，该模型可预测单细胞基因表达，并使用多组（scRNA-seq 和 scATAC–seq 联合测定）测序将增强子与目标基因连接起来数据。该方法使用可访问性数据的正则化泊松回归来联合模拟基因位点的所有调控效应，避免了成对基因-峰相关性和对峰检测的依赖的限制。

每日文摘 | 2024年04月24日

Generative models improve fairness of medical classifiers under distribution shifts | Nature Medicine

领域泛化是医疗保健领域机器学习面临的普遍挑战。由于部署和开发期间遇到的数据之间存在差异，实际条件下的模型性能可能低于预期。模型开发过程中某些群体或条件的代表性不足是造成这种现象的常见原因。这一挑战通常无法通过专家临床医生的有针对性的数据采集和“标记”来轻松解决，由于条件的稀有或可用的临床专业知识，这可能非常昂贵或实际上是不可能的。研究人员假设，生成人工智能的进步可以帮助以可引导的方式缓解这种未满足的需求，通过合成示例丰富训练数据集，解决代表性不足的条件或子群体的不足。

Single Cell Atlas: a single-cell multi-omics human cell encyclopedia | Genome Biology

单细胞测序数据集是生物学和医学领域的关键，能够以前所未有的分辨率深入了解异质细胞群。在这里，研究人员通过对来自 125 个健康成人和胎儿组织的五个单细胞组学、空间转录组学和两个批量组学的数据集进行深入表征，构建了人体组织的单细胞多组学图谱。他们构建了其补充的基于网络的平台，即单细胞图谱（SCA，www.singlecellatlas.org），以实现对人类胎儿和成人组织的深层多组学特征的大量交互式数据探索。

brainlife.io: a decentralized and open-source cloud platform to support neuroscience research | Nature Methods

神经科学正在推进标准化和工具开发，以支持严谨性和透明度。因此，数据管道的复杂性增加了，阻碍了公平（可查找、可访问、可互操作和可重用）访问。 Brainlife.io 平台提供数据标准化、管理、可视化和处理，并自动跟踪数千个数据对象的来源历史。

每日文摘 | 2024年04月23日

Pretraining a foundation model for generalizable fluorescence microscopy-based image restoration | Nature Methods

基于荧光显微镜的图像恢复在生命科学领域受到了广泛关注，并得益于深度学习技术取得了重大进展。然而，当前大多数特定任务的方法对于不同的基于荧光显微镜的图像恢复问题的通用性有限。在这里，研究人员寻求提高普遍性，并探索将预训练基础模型应用于基于荧光显微镜的图像恢复的潜力。他们提供了一种 universal fluorescence microscopy-based image restoration (UniFMIR) 模型来解决不同的恢复问题，并表明 UniFMIR 提供更高的图像恢复精度、更好的泛化性和增强的多功能性。

Prediction of protein-RNA interactions from single-cell transcriptomic data | Nucleic Acids Research

蛋白质对于调节 RNA 生命的各个方面都至关重要，但对它们与编码和非编码 RNA 的相互作用的了解仍然有限。实验研究通常仅限于少量细胞系和有限的一组 RNA 结合蛋白 (RBP)。尽管基于物理化学原理的计算方法可以准确预测蛋白质-RNA 相互作用，但它们通常缺乏考虑细胞类型特异性基因表达和更广泛的基因调控网络 (GRN) 背景的能力。在这里，研究人员评估了几种 GRN 推理算法在从单细胞转录组数据预测蛋白质-RNA 相互作用方面的性能，并提出了一个名为 scRAPID (single-cell transcriptomic-based RnA Protein Interaction Detection) 的管道，它将这些方法与catRAPID算法，可以识别RBP和RNA分子之间的直接物理相互作用。

Demographic bias in misdiagnosis by computational pathology models | Nature Medicine

尽管监管部门的批准数量不断增加，但基于深度学习的计算病理学系统常常忽视人口因素对性能的影响，可能导致偏差。由于计算病理学利用了无法代表某些人口群体的大型公共数据集，因此这种担忧变得更加重要。作者利用来自 The Cancer Genome Atlas 和 EBRAINS 脑肿瘤图谱的公开数据以及内部患者数据表明，当用于对乳腺癌和肺癌进行亚型分类和预测神经胶质瘤中的 IDH1 突变时，whole-slide 图像分类模型在不同人口群体中显示出显著的性能差异。

每日文摘 | 2024年04月22日

SQANTI3: curation of long-read transcriptomes for accurate identification of known and novel isoforms | Nature Methods

SQANTI3 是一款专为对通过第三代测序技术获得的长读转录本模型进行质量控制、管理和注释而设计的工具。 SQANTI3 利用其注释框架计算转录模型、连接点和转录末端的质量描述符。有了这些信息，就可以识别潜在的伪影并用可靠的序列替换。

DANCE: a deep learning library and benchmark platform for single-cell analysis | Genome Biology

DANCE 是第一个标准、通用且可扩展的基准平台，用于访问和评估众多单细胞分析任务的基准数据集范围内的计算方法。目前，DANCE 支持 3 个模块和 8 个流行任务，在 21 个基准数据集上使用 32 种最先进的方法。

Towards a general-purpose foundation model for computational pathology | Nature Medicine

组织图像的定量评估对于计算病理学 (CPath) 任务至关重要，需要从 whole-slide images (WSIs) 中客观表征组织病理学实体。 WSI 的高分辨率和形态特征的可变性提出了重大挑战，使高性能应用的大规模数据注释变得复杂。为了应对这一挑战，当前的努力提出通过自然图像数据集的迁移学习或对公开的组织病理学数据集的自我监督学习来使用预训练的图像编码器，但尚未在不同的组织类型中大规模地广泛开发和评估。研究人员推出了 UNI，这是一种通用的病理学自监督模型，使用来自 20 个主要组织类型的 100,000 多个诊断 H&E 染色 WSI（>77TB 数据）的 1 亿多张图像进行预训练。

每日文摘 | 2024年04月21日

A visual-language foundation model for computational pathology | Nature Medicine

数字病理学的加速采用和深度学习的进步使得能够为各种疾病和患者群体的各种病理学任务开发强大的模型。研究人员引入了 CONtrastive learning from Captions for Histopathology (CONCH)，这是一种视觉语言基础模型，使用多种来源的组织病理学图像、生物医学文本，尤其是通过与任务无关的预训练超过 117 万个图像标识对而开发。 CONCH 根据一套 14 个不同的基准进行评估，可以转移到涉及组织病理学图像和/或文本的广泛下游任务，在组织学图像分类、分割、字幕和文本转换方面实现最先进的性能-图像和图像到文本的检索。

Domain-specific optimization and diverse evaluation of self-supervised models for histopathology | arXiv

组织病理学中特定任务的深度学习模型为改善诊断、临床研究和精准医疗提供了有希望的机会。然而，此类模型的开发通常受到高质量数据可用性的限制。组织病理学中的基础模型可以学习各种组织类型、诊断和放大的一般表示，有可能减少开发具有所需模型性能水平的特定任务深度学习模型所需的数据、计算和技术专业知识。在这项工作中，研究人员描述了通过自我监督学习组织病理学基础模型的开发和评估。

Tradeoffs in alignment and assembly-based methods for structural variant detection with long-read sequencing data | Nature Communications

长读长测序提供长的连续 DNA 片段，促进二倍体基因组组装和结构变异结构变异检测。高效且强大的结构变异识别算法对于提高数据可用性至关重要。在这里，研究人员系统地比较了 14 种基于读取比对的结构变异识别方法（包括 4 种基于深度学习的方法和 1 种混合方法）和 4 种基于组装的结构变异识别方法，以及 4 种上游对齐器和 7 种组装器。