Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты.
vcf2maf — это инструмент биометрического анализа, разработанный Сириаком Кандотом для преобразования файлов VCF (вариантный формат вызова) в файлы MAF (формат аннотаций мутаций). Он широко используется при обработке вариантов данных в исследованиях генома рака и имеет следующие характеристики:
vcf2maf
использовать VEP (Variant Effect Predictor) Из нескольких библиотек данных, таких как Ensembl, COSMIC, dbSNP), чтобы предоставить подробную биологическую основу и аннотацию функционального воздействия для каждой мутации.vcf2maf
Возможность обработки данных с различных платформ секвенирования и конвейеров анализа. VCF-файл,сделай это по-другомуиз История исследованияи В технических условиях он имеет высокиеизприменимость。Язык программирования: Перл GItHub: https://github.com/mskcc/vcf2maf?tab=readme-ov-file
Файл VCF (формат вызова вариантов) — это стандартный формат, используемый для хранения информации о вариациях в данных секвенирования генома, такой как однонуклеотидные полиморфизмы (SNP), вставки и делеции (инделы) и т. д. Он широко используется в биоинформатике и геномных исследованиях для описания известных и недавно обнаруженных вариантов в определенных местах.
Файлы VCF включают заголовок и части данных. Заголовок содержит метаданные о файле, описывающие формат и интерпретацию данных. В разделе данных перечислены конкретные сведения о мутациях, а именно:
.
выражать。PASS
;если не прошло,эта колонка Воля Шоу не удалосьизтестизкод。MAF(Mutation Annotation Формат) документ — метод описания генома рака. о Формат вариаций, широко используемый в биоинформатике и медицинских исследованиях. MAF-файл не только записывает конкретную информацию о мутациях, но также включает подробные аннотации об этих мутациях. этосделан из Атлас генома рака (The Cancer Genome Atlas, Стандартный формат, используемый и разрабатываемый в проектах TCGA).
MAF-файлиз Основные столбцы и их содержимое включают в себя:
Дополнительная информация аннотации
Для установки рекомендуется использовать Conda, которую можно разместить в той же небольшой среде для удобства управления.
## conda create -n wes
conda activate wes
conda install -y vcf2maf
##При этом его нужно использовать с веп. Если нет Установить, то тоже нужно заранее Установить.
conda install ensembl-vep
VEP также был представлен ранее. Подробности см.:
Установка исходного кода также очень проста: просто скачайте и разархивируйте его, чтобы использовать.
wget -c https://github.com/mskcc/vcf2maf/archive/refs/tags/v1.6.22.tar.gz
tar -xf v1.6.22.tar.gz
Инструмент для преобразования файлов VCF в файлы MAF (формат аннотаций мутаций). Очень полезно при проведении исследований генома рака, поскольку позволяет подробно аннотировать мутации и интегрировать их с другими данными о геноме рака.
vcf2maf.pl
—— Воля VCF-файл конвертировать в MAF документ。maf2maf.pl
-- для повторной аннотации MAF-файлсерединаиз Информация о вариациях, оно проходит maf2vcf
Воля MAF документ Конвертировать в VCF-файл, затем используйте vcf2maf
для каждого VCF Сделайте повторную аннотацию для создания нового объединенного MAF документperl vcf2maf.pl --input-vcf INPUT.vcf --output-maf OUTPUT.maf --tumor-id TUMOR_ID --normal-id NORMAL_ID
--input-vcf #Указываем входной документ, который должен быть в формате vcf
--input-vcf #Указываем путь к выходному mafдокументу
--tumor-id #существовать MAF Штрих-код образца опухоли указан в документе, значение по умолчанию: "TUMOR"
--normal-id #существовать MAF Соответствуют стандартным образцам штрих-кодов, указанным в документе, значение по умолчанию: "NORMAL"
--vcf-tumor-id Образцы опухолей, использованные в столбце генотипа #VCF-файл удостоверение личности, с `--tumor-id` Параметры те же
--vcf-normal-id Соответствующие нормальные образцы, используемые в столбце генотипа #VCF-файл удостоверение личности, с `--normal-id` Параметры те же
--ref-fasta #Указать ссылку FASTA Путь к документу
--species #указанный вид Ensembl Имя, например, для мыши: `mus_musculus`, по умолчанию `homo_sapiens` (человек)
--ncbi-build # Укажите мутацию MAF из NCBI Эталонная версия сборки, например для мышей: `GRCm38`, по умолчанию `GRCh37`
--cache-version # использовать VEP из Offline кэш-версии,Например 75, 91, 112 и т.д.,по умолчаниюиспользовать Установитьиз Версия
--inhibit-vep # пропустить пробежку ВЭП, но если VCF найден в VEP комментарии, извлеките эти комментарии
--vep-path #Настраиваем путь вызова vep
--vep-data #Кастомный веп cache путь. по умолчанию ~/.vep
perl ~/software/vcf2maf-1.6.22/vcf2maf.pl \
--input-vcf ../vcf/homo_test.filter.vcf \
--output-maf homo_test.vep.maf \
--vep-path /home/data/t020560/miniconda3/envs/wes/bin/ \
--vep-data ~/vep_data/homo \ #каталог кэша, каталог — папка homo_sapiensdocument
--ref-fasta ../hg38/hg38.fa --ncbi-build GRCh38 --cache-version=111
Запустить список
Просто просмотрите строку информации
##vcfдокумент
$cat ~/vcf/homo_test.filter.vcf |grep 69270
chr1 69270 . A G 1155.73 Filter AC=6;AF=1.00;AN=6;DP=42;ExcessHet=3.0103;FS=0.000;MLEAC=6;MLEAF=1.00;MQ=27.65;QD=28.19;SOR=7.476 GT:AD:DP:GQ:PL 1/1:0,15:15:45:428,45,0 1/1:0,11:11:32:287,32,0 1/1:0,15:15:45:454,45,0
## MAF-файл
$cat homo_test.vep.maf |sed -n '2,3p'
Hugo_Symbol Entrez_Gene_Id Center NCBI_Build Chromosome Start_Position End_Position Strand Variant_Classification Variant_Type Reference_Allele Tumor_Seq_Allele1 Tumor_Seq_Allele2 dbSNP_RS dbSNP_Val_Status Tumor_Sample_Barcode Matched_Norm_Sample_Barcode Match_Norm_Seq_Allele1 Match_Norm_Seq_Allele2 Tumor_Validation_Allele1 Tumor_Validation_Allele2 Match_Norm_Validation_Allele1 Match_Norm_Validation_Allele2 Verification_Status Validation_StatusMutation_Status Sequencing_Phase Sequence_Source Validation_Method Score BAM_File Sequencer Tumor_Sample_UUID Matched_Norm_Sample_UUID HGVSc HGVSp HGVSp_Short Transcript_ID Exon_Number t_depth t_ref_count t_alt_count n_depth n_ref_count n_alt_count all_effects Allele Gene Feature Feature_type Consequence cDNA_position CDS_position Protein_position Amino_acids Codons Existing_variation ALLELE_NUM DISTANCE STRAND_VEP SYMBOL SYMBOL_SOURCE HGNC_ID BIOTYPE CANONICAL CCDS ENSP SWISSPROT TREMBL UNIPARC RefSeq SIFT PolyPhen EXON INTRON DOMAINS AFAFR_AF AMR_AF ASN_AF EAS_AF EUR_AF SAS_AF AA_AF EA_AF CLIN_SIG SOMATIC PUBMED MOTIF_NAME MOTIF_POS HIGH_INF_POS MOTIF_SCORE_CHANGE IMPACT PICK VARIANT_CLASS TSL HGVS_OFFSET PHENO MINIMISED GENE_PHENO FILTER flanking_bps vcf_id vcf_qual gnomADe_AF gnomADe_AFR_AF gnomADe_AMR_AF gnomADe_ASJ_AF gnomADe_EAS_AF gnomADe_FIN_AF gnomADe_NFE_AF gnomADe_OTH_AF gnomADe_SAS_AF vcf_pos
OR4F5 79501 . GRCh38 chr1 69270 69270 + Silent SNP A A G rs201219564 TUMOR NORMAL A A c.243A>G p.Ser81= p.S81= ENST00000641515 3/3 OR4F5,synonymous_variant,p.Ser81=,ENST00000641515,NM_001005484.2;,regulatory_region_variant,,ENSR00000918279,; G ENSG00000186092 ENST00000641515 Transcript synonymous_variant 303/2618 243/981 81/326 S tcA/tcG rs201219564,COSV58736820 1 1 OR4F5 HGNC HGNC:14825 protein_coding YES CCDS30547.2 ENSP00000493376 A0A2U3U0J3.21 UPI000D1938F0 NM_001005484.2 3/3 0,1 LOW 1 SNV 0,1 Filter;common_variant CAC . 1155.73 0.838 0.3591 0.7932 0.8482 0.9984 0.8821 0.9146 0.868 0.9005 69270
Основная информация
OR4F5
。79501
。.
)。GRCh38
。chr1
。69270
。69270
。+
)。Информация о вариацияхSilent
(синонимичные мутации)。SNP
(однонуклеотидный полиморфизм)。A
。A
。G
。образец информации
TUMOR
。NORMAL
。A
。Остальные столбцы ниже содержат подробную аннотацию о мутации и не будут отображаться таким же образом.
Если ваш vcf-файл был аннотирован VEP, вы можете пропустить аннотацию VEP и преобразовать только формат.
perl ~/software/vcf2maf-1.6.22/vcf2maf.pl \
--input-vcf ~/vep/vep_out/homo_test_vepout.vcf \
--output-maf homo_test_inhibit.vep.maf \
--inhibit-vep \ #Пропустить комментарии VEP
--ref-fasta ../hg38/hg38.fa
1. Необходимо указать ссылку на файл фаста
perl ~/software/vcf2maf-1.6.22/vcf2maf.pl --input-vcf ../vcf/homo_test.filter.vcf --output-maf homo_test.vep.maf
Нужно добавить--ref-fasta
Пожалуйста, обратитесь к файлу fasta для спецификации параметров.
2、установка кондыизvep Ошибка запуска Версия Zlib низкая
perl ~/software/vcf2maf-1.6.22/vcf2maf.pl --input-vcf ../vcf/homo_test.filter.vcf --output-maf homo_test.vep.maf --vep-path /home/data/t020560/miniconda3/envs/wes/bin/ --vep-data ~/vep_data --ref-fasta ../hg38/hg38.fa --ncbi-build GRCh38
Сообщение об ошибке
conda update -c conda-forge perl-compress-raw-zlib
Обновите Zlib и запустите его снова без ошибок.
3. Проблема с версией кэша vep-кеша
каталог кэша
Сообщение об ошибке
Загруженная кешированная версия — vep. 111 ,而по умолчанию调用изда112,так окиспользовать--cache-version
Настройте версию.