Подробное графическое объяснение биометрического формата VCF (информация о вариантах)
Подробное графическое объяснение биометрического формата VCF (информация о вариантах)

1. Знакомство с форматом vcf

vcf (формат вызова вариантов) — это метод, используемый для хранения информации о вариациях в последовательностях генома.

  • Обычно используется при вариациях отдельных нуклеотидов (SNV), небольших вставках и делециях (INDEL) и т. д.
  • Также используется для изменения количества копий (CNV), SV (структурных изменений) и т. д.
  • SNV: эталонный геном — это C на хромосоме 1 7845190, но тестовый образец — это A в той же позиции.
  • INDEL: включает как вставку, так и удаление.
    • Вставка: определенный фрагмент эталонного генома ACTTG, но то же самое положение образца обнаружения ACCCTTG, CC вставлен
    • Удаление: определенный фрагмент эталонного генома удаляется. TTCGG, но то же положение образца обнаружения ТТГГ, отсутствует C

2. файл ресурсов vcf

Приведенные здесь примеры файлов взяты из проекта «1000 геномов», а данные в основном представляют собой данные о человеческих вариациях в разных регионах.

Источник данных: https://www.internationalgenome.org/.

Загрузка данных: https://s3.amazonaws.com/1000genomes/release/20130502/ALL.wgs.phase3_shapeit2_mvncall_integrated_v5b.20130502.sites.vcf.gz

Или https://ftp.1000genomes.ebi.ac.uk//vol1/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

Пример данных

Язык кода:javascript
копировать
#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO
1	10177	rs367896724	A	AC	100	PASS	AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL
1	10235	rs540431307	T	TA	100	PASS	AC=6;AF=0.00119808;AN=5008;NS=2504;DP=78015;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0.0051;AA=|||unknown(NO_COVERAGE);VT=INDEL
1	10352	rs555500075	T	TA	100	PASS	AC=2191;AF=0.4375;AN=5008;NS=2504;DP=88915;EAS_AF=0.4306;AMR_AF=0.4107;AFR_AF=0.4788;EUR_AF=0.4264;SAS_AF=0.4192;AA=|||unknown(NO_COVERAGE);VT=INDEL
1	10505	rs548419688	A	T	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9632;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10506	rs568405545	C	G	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9676;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10511	rs534229142	G	A	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9869;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10539	rs537182016	C	A	100	PASS	AC=3;AF=0.000599042;AN=5008;NS=2504;DP=9203;EAS_AF=0;AMR_AF=0.0014;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.001;AA=.|||;VT=SNP
1	10542	rs572818783	C	T	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=9007;EAS_AF=0.001;AMR_AF=0;AFR_AF=0;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10579	rs538322974	C	A	100	PASS	AC=1;AF=0.000199681;AN=5008;NS=2504;DP=5502;EAS_AF=0;AMR_AF=0;AFR_AF=0.0008;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	10616	rs376342519	CCGCCGTTGCAAAGGCGCGCCG	C	100	PASS	AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL
1	10642	rs558604819	G	A	100	PASS	AC=21;AF=0.00419329;AN=5008;NS=2504;DP=1360;EAS_AF=0.003;AMR_AF=0.0014;AFR_AF=0.0129;EUR_AF=0;SAS_AF=0;AA=.|||;VT=SNP
1	11008	rs575272151	C	G	100	PASS	AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2232;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP
1	11012	rs544419019	C	G	100	PASS	AC=441;AF=0.0880591;AN=5008;NS=2504;DP=2090;EAS_AF=0.0367;AMR_AF=0.0965;AFR_AF=0.1346;EUR_AF=0.0885;SAS_AF=0.0716;AA=.|||;VT=SNP

3. Подробное объяснение файла VCF.

Обычно файл состоит из двух частей:

  • Информация о комментарии (заголовок): расположена в начале файла, каждая строка начинается с #начинать
  • Информация о мутации (тело): Нет #Это рекордиз Информация о вариациях

3.1 Основные поля

Поля, выделенные жирным шрифтом, обязательны для заполнения

Поле

описывать

Пример

CHROM

Номер хромосомы, обратите внимание, что префикс chr не обязателен.

1

POS

Место вариации INDEL — это первая базовая позиция INDEL.

10616

ID

Номер dbSNP, .

rs376342519

REF

Основы эталонного генома, то есть аллели

CCGCCGTTGCAAAGGCGCGCCG

ALT

Обнаружение оснований образца. Если в одной и той же позиции находится несколько оснований, они разделяются.

C

QUAL

Значение качества Phred указывает на возможность изменения на измененном сайте. Чем выше оценка, тем она надежнее, но в то же время необходимо учитывать такие факторы, как глубина секвенирования и охват. . означает, что поле остается пустым, но не означает, что значение качества равно 0.

100

FILTER

Флаг фильтра, если он PASS, считается мутацией

PASS

INFO

Для получения подробной информации используйте Представлено в формате ключ=значение. ключ Обычно аббревиатура, а именно «описатьсуществоватьдокумент», начинающаяся с «из». header lines отображается в.

AC=4973;AF=0.993011;AN=5008;VT=INDEL

FORMAT

Необязательный вариант формата сайта, включая GT, AD, DP, GQ, PL/GT, AD, DP, GQ, PGT, PID, PL, PS.

GT:DP:GQ:PL

SAMPLEs

Дополнительно, значения для отдельных образцов, SM-теги из BAM-файла @RG. Обычно каждый образец соответствует одному столбцу, поэтому в файле будет более десяти столбцов. Каждый образец будет соответствовать формату столбца ФОРМАТ. Различные форматы разделяются:

0/1:50:99:0,20,200

3.2 Общая информация в INFO

Поле

полное имя

описывать

Пример

AA

Ancestral Allele

аллель, присутствующая у общего предка популяции или вида

AA=A

AC

Allele Count

Сколько раз вариант аллели (столбец ALT) появляется в коллекции образцов. Если существует несколько ALT, разделите их с помощью ,

AC=4973

AF

Alternate Allele Frequency

Частота этого варианта в выборочной коллекции. Для 1000 геномов EAS_AF, AMR_AF, AFR_AF, EUR_AF и SAS_AF представляют частоты аллелей популяций Восточной Азии, Америки, Африки, Европы и Южной Азии соответственно.

AF=0.993011

AN

Allele Number

Общее количество аллелей для этого варианта. На примере диплоидных организмов: если образец гетерозиготен (генотип 0/1), значение AN равно 1, что означает, что мутирует только один аллель модифицированного сайта. Если образец гомозиготен (генотип 1/1), значение AN равно 2.

AN=5008

DP

Read Depth

Глубина секвенирования вариантного сайта, то есть охват чтения модифицированного сайта.

DP=2365

MQ

Mapping Quality

При сравнении этого варианта среднее качество чтения

MQ=100

QD

Quality by Depth

Отношение показателя качества варианта (QUAL) к глубине секвенирования (DP). Используется для оценки качества модифицированных сайтов.

QD=0.12

VT

Variant Type

Типы вариаций, обычно включая SNP, MNP, INDEL, SV и т. д.

VT=INDEL

MAF (частота минорного аллеля) частота минорного аллеля

Это измерение можно использовать для получения приблизительного представления о генотипической вариации данного SNP в данной популяции. Другими словами, оно показывает, насколько распространен этот SNP.

EAF (частота аллеля эффекта) влияет на частоту аллеля

По сути, это аллель, и ее связь с заболеванием изучается. Следовательно, аллель эффекта всегда является минорным аллелем.

3.3 Информация в ФОРМАТЕ и ОБРАЗЦАХ

Поле

полное имя

описывать

GT

Genotype

Представляет генотип. Для диплоидных образцов используйте два числа, разделенные / или `

AD

Allele Depth

Прочтите покрытие аллелей в образце. У диплоидов 1000 и 1100 разделяются запятыми, первое — REF, второе — ALT.

DP

Read Depth

Читает освещение этого сайта

GQ

Genotype Quality

Значение качества генотипа указывает на вероятность генотипа. Чем выше значение, тем больше вероятность. Расчет: Значение Phred=-10log10§, p — вероятность ошибки генотипа.

PL

Provieds the Likelihoods of the given genotypes

Значения качества трех генотипов равны 0/0, 0/1 и 1/1. Сумма вероятностей трех генотипов равна 1. Чем меньше значение, тем больше вероятность того, что это генотип. Значение Phred также рассчитывается, но p — это вероятность существования генотипа.

PGT

Phased Genotype

Встречается только в образцах, прошедших фазовое разделение. Чтобы представить генотип после разделения фаз, используйте ` между двумя числами.

PID

Phase ID

описываем фазу генотипа из идентификатора.

PS

Phase Set

описывать фазу генотипа по информации в том же образце.

Фазирование — это процесс определения того, от какого родителя происходит аллель, которую человек несет в определенном генетическом локусе.

GT Полесерединаиз /Указывает на то, что генотип не является поэтапным.,Указывает на то, что мы не уверены, какой ген ожидания происходит от отца или матери.

GT Полесерединаиз |Представляет фазировку генотипа,Другими словами, можно определить исходного родителя гена ожидания и z.

4. Режим записи vcf

Файлы VCF могут записывать информацию о вариантах на разных уровнях: от отдельных вариантов до вариантов у отдельных людей, тканей, популяций или семей.

4.1 Записывайте только информацию о самой мутации

Обычно используется для конкретных вариантов характеристик и не включает конкретную индивидуальную или групповую информацию.

Язык кода:javascript
копировать
#CHROM POS     ID        REF    ALT    QUAL FILTER INFO
1      69511   rs75062661 G      A      99    PASS   AC=1;AF=0.0002;AN=5008;NS=2504;DP=2184;EAS_AF=0;AMR_AF=0.0008;AFR_AF=0;EUR_AF=0.001;SAS_AF=0.0007;VT=SNP

4.2 Запись информации о вариациях отдельных лиц или отдельных тканей

Обычно в конце файла VCF есть один или несколько столбцов образцов, где каждый столбец представляет отдельного человека или определенную ткань человека.

Язык кода:javascript
копировать
#CHROM POS     ID        REF    ALT    QUAL FILTER INFO                             FORMAT          sample1
1      899282  rs123456  A      G,T    50    PASS   AC=2;AF=0.5;AN=4;NS=1;DP=100   GT:DP:GQ:PL     0/1:50:99:0,20,200

4.3 Запишите информацию о вариациях популяции или семьи.

Данные, включающие несколько образцов, можно использовать для популяционного генетического анализа.

Язык кода:javascript
копировать
#CHROM POS     ID         REF    ALT    QUAL FILTER INFO                             FORMAT          Person1      Person2      Person3
1      945874  rs7891011  A      G      99    PASS   AC=3;AF=0.75;AN=4;NS=3;DP=300  GT:DP:GQ:PL     0/1:100:99:0,20,200  1/1:100:99:0,0,100  0/0:100:99:0,0,0

1000 genomes Относительно специфично: частоты аллелей разных популяций находятся в INFO серединас разнымииз Полевыражать

Язык кода:javascript
копировать
1	10177	rs367896724	A	AC	100	PASS	AC=2130;AF=0.425319;AN=5008;NS=2504;DP=103152;EAS_AF=0.3363;AMR_AF=0.3602;AFR_AF=0.4909;EUR_AF=0.4056;SAS_AF=0.4949;AA=|||unknown(NO_COVERAGE);VT=INDEL

5. Стандарты записи

Обратите внимание, что этот стандарт не требуется спецификацией vcf, но для последующего объединения и интерпретации образцов лучше всего следовать следующим стандартам.

И GATK, и bcftools предоставляют соответствующие стандартизированные инструменты.

5.1 Документирование мультинуклеотидного полиморфизма (MNP)

Язык кода:javascript
копировать
REF: GGGCATGGG
ALT: GGGTGCGGG

Существует четыре метода выражения:

Слева — сравнение эталонного генома (REF) и тестового образца (ALT). Один цвет — метод записи.

Правая часть — это то, как она представлена ​​в файле vcf.

Итак, как выразить вариации с использованием как можно меньшего количества нуклеотидов и сократить количество избыточных записей.

Первые три содержат одинаковую избыточную информацию слева и справа. Очевидно, что наиболее подходящим является последний, содержащий только сайты мутаций.

Пример в vcf:

Язык кода:javascript
копировать
12	6608369	ss1388023103	CTTTCTTTCT	ATTTCTTTCT	100	PASS	AC=2;AF=0.000399361;AN=5008;NS=2504;DP=18116;EAS_AF=0;AMR_AF=0;AFR_AF=0;EUR_AF=0.002;SAS_AF=0;VT=MNP

5.2 Удаление или вставка записи (INDEL)

Язык кода:javascript
копировать
REF: GGGCACACACAGGG
ALT: GGGCACACAGGG

Длина всех аллельных сайтов остается постоянной, а положение мутации нельзя перемещать влево, в том числе для уменьшения избыточных записей.

Последний может как привязать сайт удаления, так и отобразить удаление.

удаление в файле vcf

Язык кода:javascript
копировать
1	43098430	rs534335349	TC	T	100	PASS	AC=3;AF=0.000599042;AN=5008;NS=2504;DP=18120;EAS_AF=0.001;AMR_AF=0;AFR_AF=0.0015;EUR_AF=0;SAS_AF=0;AA=?|C|-|unsure;VT=INDEL

Вставка в файл vcf

Язык кода:javascript
копировать
12	6607940	rs150221708	A	AT	100	PASS	AC=695;AF=0.138778;AN=5008;NS=2504;DP=16205;EAS_AF=0.0089;AMR_AF=0.1412;AFR_AF=0.1392;EUR_AF=0.2097;SAS_AF=0.1973;AA=TTTTTT|TTTTTT|TTTTTTT|insertion;VT=INDEL

5.3 Регистрация структурных изменений (SV)

Это невероятно сложно, но в качестве альтернативы, конечно, существует формат файла Bedpe.

REF

ALT

описывать

s

t[p[

Фрагмент p заменяет s с позиции t, начиная справа.

s

t]p]

Фрагмент p переворачивается (слева), заменяя s на позиции t.

s

]p]t

Фрагмент p заменяет s на позиции перед t, начиная справа.

s

[p[t

Фрагмент p переворачивается (слева), заменяя s с позиции перед t

6. Примеры

Эта строка взята из данных в начале статьи.

Язык кода:javascript
копировать
1	10616	rs376342519	CCGCCGTTGCAAAGGCGCGCCG	C	100	PASS	AC=4973;AF=0.993011;AN=5008;NS=2504;DP=2365;EAS_AF=0.9911;AMR_AF=0.9957;AFR_AF=0.9894;EUR_AF=0.994;SAS_AF=0.9969;VT=INDEL

Объясните по порядку:

  • ХРОМ: 1 — Мутация происходит на хромосоме 1.
  • POS: 10616 — Мутация происходит в основании 10616 хромосомы.
  • ID: rs376342519 - Вариант из референсбазы данныеID, вот dbSNPбаза данныхсерединаизID。
  • ССЫЛКА: CCGCCGTTGCAAAGGCGCGCCG — базовая последовательность эталонной последовательности генома в этом положении.
  • ALT: C — Мутантная последовательность оснований, показанная здесь как одно основание C, указывает на то, что относительно эталонной последовательности оставшиеся части (CGCCGTTGCAAAGGCGCGCCG) были удалены.
  • QUAL: 100 — показатель качества обнаружения вариантов. 100 означает, что качество высокое.
  • ФИЛЬТР: ПРОЙДЕН - Вариант прошел контроль качества.
  • INFOПоле:
    • AC: 4973 - Количество аллелей (Аллель Подсчитайте), что указывает на то, что во всех образцах имеется 4973 таких вариантных аллеля.
    • AF: 0.993011 - Частота аллеля (Аллель Частота), что указывает на то, что среди всех обнаруженных аллелей почти все (примерно 99,3%) относятся к этому вариантному аллелю.
    • AN: 5008 - Общее количество аллелей (Allele Число), обозначающее общее количество аллелей во всех образцах.
    • NS: 2504 - Номер образца (Количество of Samples), что указывает на то, что для обнаружения этой мутации было использовано 2504 образца.
    • DP: 2365 - Глубина секвенирования (Глубина of Покрытие), указывающее глубину секвенирования в различных позициях во всех образцах.
    • различные группы Частота аллеля (Аллель Frequency by Population):
      • EAS_AF: 0,9911 — частота аллелей в популяциях Восточной Азии.
      • AMR_AF: 0,9957 — частота аллелей в американском населении.
      • AFR_AF: 0,9894 — Частота аллелей в африканских популяциях.
      • EUR_AF: 0,994 — Частота аллелей в европейских популяциях.
      • SAS_AF: 0.9969 - Частоты аллелей в популяциях Южной Азии.
  • VT: INDEL — тип варианта, здесь представляет событие вставки/удаления.

В совокупности эта строка записей показывает, что существует очень распространенная мутация INDEL на хромосоме 1, с очень высокой частотой в разных популяциях, почти близкая к фиксированной. Другими словами, этот вариант широко распространен в коллекции образцов.

Вот небольшая игра под названием Lianliankan, которая поможет вам понять.

https://www.ebi.ac.uk/training/online/courses/human-genetic-variation-introduction/variant-identification-and-analysis/understanding-vcf-format/


https://samtools.github.io/hts-specs/VCFv4.2.pdf

https://gatk.broadinstitute.org/hc/en-us/articles/360035531692-VCF-Variant-Call-Format

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose