Analysis and benchmarking of small and large genomic variants across tandem repeats | Nature Biotechnology
串联重复序列 (TR) 在人类基因组中具有高度多态性,具有数千个相关分子特征,并与 60 多种疾病表型相关。然而,由于变异检测和代表性方面的挑战,以及缺乏全基因组标准,它们经常被排除在大规模研究之外。在这里,为了促进 TR 方法的发展,研究人员创建了 TR 区域目录,并探索了 86 个单倍型解析的长读人类组装体的 TR 特性。他们汇编了 Genome in a Bottle (GIAB) HG002 个体的变体,以创建 TR 数据集来对现有和未来的 TR 分析方法进行基准测试。
Development and validation of AI/ML derived splice-switching oligonucleotides | Molecular Systems Biology
剪接转换寡核苷酸 (splice-switching oligonucleotides, SSO) 是反义化合物,直接作用于前 mRNA 以调节选择性剪接 (AS)。这项研究证明了人工智能/机器学习 (AI/ML) 在识别功能性、可验证性和治疗性 SSO 方面的价值。研究人员使用剪接因子 (SF) mRNA 前体结合谱和剪接体组装信息训练 XGboost 树模型,以识别前 mRNA 上的调节性 SSO 结合位点。利用 Shapley 和 out-of-bag 分析,他们还预测了特定 SF 的身份,这些 SF 与前 mRNA 的结合被 SSO 阻断。
Transparent medical image AI via an image–text foundation model grounded in medical literature | Nature Medicine
构建值得信赖且透明的基于图像的医疗人工智能 (AI) 系统需要能够在开发流程的各个阶段(从训练模型到部署后监控)询问数据和模型。理想情况下,数据和相关的人工智能系统可以使用医生已经熟悉的术语来描述,但这需要用语义上有意义的概念密集注释的医疗数据集。在本研究中,研究人员提出了一种名为 MONET(医学概念检索器)的基础模型方法,该方法学习如何将医学图像与文本连接起来,并对图像的概念存在进行密集评分,以实现医疗人工智能开发和部署中的重要任务,例如数据审计、模型审核和模型解释。由于疾病、肤色和成像方式的异质性,皮肤科为 MONET 的多功能性提供了要求严格的用例。他们根据 105,550 张皮肤病图像以及大量医学文献中的自然语言描述来训练 MONET。 MONET 可以准确注释经委员会认证的皮肤科医生验证的皮肤病学图像中的概念,与基于先前概念注释的临床图像皮肤病学数据集构建的监督模型竞争。