登录
首页 >  文章 >  软件教程

GATK资源包下载攻略及详细教程

时间:2025-05-27 10:18:31 472浏览 收藏

由于从Google Buckets和FTP下载GATK Resource Bundle变得不便,目前只能通过Azure进行下载。本文详细介绍了如何从Azure下载GATK Resource Bundle的步骤,包括资源地址的获取和azcopy工具的使用。通过访问GATK官网和Azure相关页面,可以找到五种不同资源的下载地址,并通过azcopy工具实现高效下载。

由于众所周知的原因,从Google Buckets下载GATK Resource Bundle并不容易,而FTP下载方式自2020年起已关闭,目前只剩下通过Azure下载这一种方法。以下是如何从Azure下载GATK Resource Bundle的详细步骤。

如何下载GATK resource bundle

根据GATK官网关于Resource bundle的说明(https://gatk.broadinstitute.org/hc/en-us/articles/360035890811-Resource-bundle),Azure中的GATK Resource Bundle资源地址可以在GATK Resource Bundle(https://learn.microsoft.com/en-us/azure/open-datasets/dataset-gatk-resource-bundle)中找到。重点关注的是各种Resource bundle的Data Access地址:

datasetgatkbestpractices
West US 2: 'https://datasetgatkbestpractices.blob.core.windows.net/dataset'
West Central US: 'https://datasetgatkbestpractices-secondary.blob.core.windows.net/dataset'
SAS Token: ?sv=2020-04-08&si=prod&sr=c&sig=6SaDfKtXAIfdpO%2BkvNA%2FsTNmNij%2Byh%2F%2F%2Bf98WAUqs7I%3D

datasetgatklegacybundles West US 2: 'https://datasetgatklegacybundles.blob.core.windows.net/dataset' West Central US: 'https://datasetgatklegacybundles-secondary.blob.core.windows.net/dataset' SAS Token: ?sv=2020-04-08&si=prod&sr=c&sig=xBfxOPBqHKUCszzwbNCBYF0k9osTQjKnZbEjXCW7gU0%3D

datasetgatktestdata West US 2: 'https://datasetgatktestdata.blob.core.windows.net/dataset' West Central US: 'https://datasetgatktestdata-secondary.blob.core.windows.net/dataset' SAS Token: ?sv=2020-04-08&si=prod&sr=c&sig=fzLts1Q2vKjuvR7g50vE4HteEHBxTcJbNvf%2FZCeDMO4%3D

datasetpublicbroadref West US 2: 'https://datasetpublicbroadref.blob.core.windows.net/dataset' West Central US: 'https://datasetpublicbroadref-secondary.blob.core.windows.net/dataset' SAS Token: ?sv=2020-04-08&si=prod&sr=c&sig=DQxmjB4D1lAfOW9AxIWbXwZx6ksbwjlNkixw597JnvQ%3D

datasetbroadpublic West US 2: 'https://datasetbroadpublic.blob.core.windows.net/dataset' West Central US: 'https://datasetbroadpublic-secondary.blob.core.windows.net/dataset' SAS Token: ?sv=2020-04-08&si=prod&sr=c&sig=u%2Bg2Ab7WKZEGiAkwlj6nKiEeZ5wdoJb10Az7uUwis%2Fg%3D

可以看到共有5种资源可供下载,他们的具体解释可参见GATK resource bundle官网。每一种资源有两个服务器地址,分别是West US 2地址和West Central US地址,同时还给出了token值,只需将两者合并在一起即可得到一个合法的Azure资源地址。

为了从Azure下载数据,需要使用azcopy工具。azcopy的安装与使用详情见(https://learn.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-v10)。以下以Linux版本的azcopy为例,下载datasetgatklegacybundles资源

首先,下载并安装azcopy:

wget https://aka.ms/downloadazcopy-v10-linux
mv downloadazcopy-v10-linux az-copy.tar
tar -xvf az-copy.tar

将azcopy添加到PATH中

echo 'export PATH=$PATH:you_azcopy_path' >> ~/.bashrc

source ~/.bashrc

接下来,将datasetgatklegacybundles的资源地址拼接好:

# West US 2

gatklegacybundles_http_1='https://datasetgatklegacybundles.blob.core.windows.net/dataset?sv=2020-04-08&si=prod&sr=c&sig=xBfxOPBqHKUCszzwbNCBYF0k9osTQjKnZbEjXCW7gU0%3D'

West Central US

gatklegacybundles_http_2='https://datasetgatklegacybundles-secondary.blob.core.windows.net/dataset?sv=2020-04-08&si=prod&sr=c&sig=xBfxOPBqHKUCszzwbNCBYF0k9osTQjKnZbEjXCW7gU0%3D'

然后,使用azcopy下载资源:

# azcopy copy [source] [destination] [flags]
azcopy copy $gatklegacybundles_http_1 gatklegacybundles --recursive

由于这是文件夹下载,记得要加上--recursive参数,然后就可以等待资源下载就绪了。

好了,本文到此结束,带大家了解了《GATK资源包下载攻略及详细教程》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>