Использование NGS в анализе транскриптомов бактерий на...
description
Transcript of Использование NGS в анализе транскриптомов бактерий на...
Использование NGS в анализе транскриптомов бактерий на примере микобактерий
Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. ОвчинниковаЛаборатория структуры и функций генов человека
Тимофей Скворцов
Москва2013
I. Бактериальный транскриптом и NGS
Бактериальный транскриптом
Содержание основных классов РНК в транскриптоме
Размер генома типичной бактерии: ≈5 млн п.о.Масса РНК в одной бактериальной клетке: ≈0.1-0.2 пг
Сложность бактериального транскриптома
цис-малые РНК
транс-малые РНК
(Toledo-Arana and Solana, 2010, Bioessays)
Сложность бактериального транскриптома
Безлидерные РНК
Рибопереключатели Длинные НТО
Перекрывающиеся НТО
(Toledo-Arana and Solana, 2010, Bioessays)(Guell et al., 2011, Nat Rev Microbiol)
Сложность бактериального транскриптома
Альтернативная транскрипция
Полиаденилирование РНК
Процессинг РНК
Сплайсинг РНК
Локализованная трансляцияЭпигенетические модификации
Влияние хроматина и структуры нуклеоидов на регуляцию транскрипции
Редактирование РНК(Guell et al., 2011, Nat Rev Microbiol)
Упрощенная схема анализа транксриптома бактерий
@read1GCATGATCGTA+9:;<=>?@ABC
Бактерии РНК кДНК Данные NGS
Выделение РНК Синтез кДНКПробоподготовкаи секвенирование
• Обогащение• Фракционирование• Фрагментирование• Модификации
• Амплификация• Модификации• Фракционирование
• Культура• In vivo/in planta• Некультивированные
образцы
• Платформа• Мультиплексирование• Paired end/Single end
sequencing
Схема анализа данных NGSFASTQ file(s)FASTQ file(s)
Картирование ридовКартирование ридов
Качественный анализКачественный анализ
Контроль качестваКонтроль качества
Количественный анализКоличественный анализ
Фильтрация ридовУдаление адаптерных последовательностей
Фильтрация ридовУдаление адаптерных последовательностей
SAM/BAM file(s)SAM/BAM file(s)
reference genome
FASTA file
reference genome
FASTA file
ФильтрацияДедупликация
ФильтрацияДедупликация SAMtools, Picard toolsSAMtools, Picard tools
FASTQCFASTQC
FASTX toolkit FASTX toolkit
Bowtie, BWA, SOAP, Tophat etc.
Bowtie, BWA, SOAP, Tophat etc.IGV, ArtemisIGV, Artemis
edgeR, DESeq, bayseq etc.
edgeR, DESeq, bayseq etc.
ВизуализацияВизуализация
Gene set enrichment анализGene set enrichment анализ GOSeq, GSEA, DAVID etc.
GOSeq, GSEA, DAVID etc.
Различные программыРазличные программы
GTF/GFF/BED file(s)GTF/GFF/BED file(s)
Бактериальный транскриптомВыявление функциональных особенностей генома
(Sorek and Cossart, 2010, Nat Rev Genet)
Бактериальный транскриптом
Условие 1
Условие 2
Ген 1 Ген 2 Ген 3
Поиск дифференциально экспрессирующихся генов
Нормализация: RPKM/FPKM, TMM etc.
Сравнение: edgeR, DESeq, DEGSeq, bayseq, NOISeq etc.
II. Качественное описание бактериального транскриптома на примере Mycobacterium avium
Mycobacterium avium
Согласно современной таксономической классификации, род Mycobacterium включает более 60 видов и более 100 подвидов.
Mycobacterium aviumУсловно-патогенные микобактерии.
Вызывают диссеминированные инфекции у людей с иммунодефицитами. Возможно вызывает болезнь Крона.
Mycobacterium avium paratuberculosis вызывают болезнь Джонса у жвачных животных.
Mycobacterium avium внутри макрофагов
Новые малые РНК Mycobacterium avium
Положение sRNA-кандидатов в геноме
(Ignatov et al. 2010)
Нами были обнаружены 4 кандидатных малых РНК Mycobacterium avium, 3 из них были гомологичны уже известным малым РНК M. tuberculosis. MAV_1034-1035 не имеет гомологии в геноме M.tuberculosis и обладает стабильной вторичной структурой (RNAfold).
Mycobacterium avium – транскриптом in vitro
(Ignatov et al., unpublished results)
Мы провели RNA-seq (Illumina) транскриптома M. avium subsp. avium TMC724 из культуральной среды в mid-log фазе клеточного роста. Было получено ≈42 млн ридов, 28.2 млн ридов было картировано на геном M. avium.
Mycobacterium avium – транскриптом in vitro
(Ignatov et al., unpublished results)
Точки старта транскрипции (TSS)
Для остальных генов 5’-НТО были от 3 до 728 п.о. в длину, среднее значение – 83 п.о.6 из этих генов имели в составе 5’-НТО рибопереключатели, из них 3 – лидерные последовательности ykok, Mg2+-сенсоров, контролирующих экспрессию белков-транспортеров ионов магния.
33% из предполагаемых TSS были картированы в ±3 п.о. от старт-кодонов соответствующих генов, что говорит в пользу того, что их мРНК являются безлидерными.
Для 844 генов были определены точки старта транскрипции (TSS), для 652 из них в 5-8 п.о. upstream от TSS были найдены консенсусные промотерные последовательности.
Визуализация картирования ридов на геном (Artemis)
Mycobacterium avium – транскриптом in vitro
(Ignatov et al., unpublished results)
Антисмысловая транскрипция
Также было обнаружено 10 кандидатных транс-малых РНК, 4 из которых не имели гомологии с геномом M. tuberculosis.Малая РНК MAV_1034-1035 представляет особый интерес для дальнейшего изучения, т.к. обладает высоким уровнем экспрессии и не имеет гомологии с геномом M.tuberculosis.
Нами было выявлено 86 кандидатных антисмысловых РНК, протяженностью от одного до нескольких генов.
III. Сравнительный анализ транскриптомов бактерий на примере Mycobacterium tuberculosis
Mycobacterium tuberculosis
Mycobacterium tuberculosisПатогенные микобактерии, возбудители туберкулеза.
Примерно 30% населения Земли инфицировано M. tuberculosis.
Туберкулез уносит каждый год около 1.5 млн человеческих жизней (больше, чем рак легкого).
Mycobacterium tuberculosis
Mycobacterium tuberculosis – дормантное состояниеАктивные MTB
Овоидные формы MTB
(По Chao and Rubin, 2010, Annu Rev Microbiol) (Shleeva et al., 2011, Tuberculosis)
Поиск дифференциально экспрессирующихся геновМы провели сравнение транскриптомов M. tuberculosis H37Rv в дормантном состоянии (Dorm) и логарифмической фазе роста (Log).
Репликат Число прочтений
Число прочтений, картированных на геном 1 раз
Dorm 1 27 913 346 9 019 444 (32%)
Dorm 2 7 352 103 6 007 569 (82%)
Dorm 3 13 973 841 11 803 273 (85%)
Log 1 18 798 208 10 422 051 (55%)
Log 2 17 736 079 15 828 832 (89%)
Log 3 11 046 464 9 914 746 (90%)
Секвенирование проводилось на платформе Illumina, в биологических трипликатах.
(Ignatov et al., unpublished results)
Поиск дифференциально экспрессирующихся генов
D1 D2 D3 L1 L2 L3Dorm 1 1Dorm 2 0,85 1Dorm 3 0,86 0,88 1Log 1 0,77 0,6 0,61 1Log 2 0,74 0,63 0,64 0,95 1Log 3 0,71 0,6 0,62 0,93 0,99 1
D1_AS D2_AS D3_AS L1_AS L2_AS L3_ASDorm 1_AS 1Dorm 2_AS 0,74 1Dorm 3_AS 0,77 0,74 1Log 1_AS 0,65 0,5 0,53 1Log 2_AS 0,65 0,54 0,57 0,93 1Log 3_AS 0,61 0,52 0,54 0,91 0,97 1
Мы вычислили корреляционный коэффициент Спирмена для выявления сходимости репликатов. Сходимость результатов внутри групп была высокой (до 0,99) и превышала межгрупповую. Для антисмысловых транскриптов (AS) сходимость была ниже, тем не менее оставаясь значимой.
Вычисление корреляции между репликатами.
(Ignatov et al., unpublished results)
Поиск дифференциально экспрессирующихся генов
Gene DescriptionPE_PGRS17 PE-PGRS family protein PE_PGRS17PE_PGRS10 PE-PGRS family protein PE_PGRS10Rv0789c Hypothetical proteinRv3424c Hypothetical proteinRv2662 Hypothetical proteinRv1405c Putative methyltransferaseRv2013 TransposaseRv3428c Possible transposase
fadD18 Probable fatty-acid-CoA ligase FadD18cut1 Probable cutinase Cut1PE_PGRS18 PE-PGRS family protein PE_PGRS18PPE39 PPE family protein PPE39bpoA Possible peroxidase BpoA (non-haem peroxidase)Rv0841 Probable conserved transmembrane proteinRv2656c Possible PhiRv2 prophage proteingalK Probable galactokinase GalK (galactose kinase)PE_PGRS49 PE-PGRS family protein PE_PGRS49Rv1403c Putative methyltransferaseRv0612 Conserved hypothetical proteinlpqX Probable lipoprotein LpqXPE_PGRS56 PE-PGRS family protein PE_PGRS56PE_PGRS27 PE-PGRS family protein PE_PGRS27PE_PGRS25 PE-PGRS family protein PE_PGRS25PE_PGRS34 PE-PGRS family protein PE_PGRS34PE_PGRS50 PE-PGRS family protein PE_PGRS50PE_PGRS3 PE-PGRS family protein PE_PGRS3PE_PGRS54 PE-PGRS family protein PE_PGRS54
Top 30 генов с повышенной экспрессией при переходе в Dorm
890 генов увеличает экспрессию при переходе в дормантное состояние (Dorm), при это снижается экспрессия 939 генов
(Ignatov et al., unpublished results)
Мы применили программу edgeR для поиска генов, чья относительная представленность транскриптов которых внутри каждого из транскриптомов увеличилась/уменьшилась.
Поиск дифференциально экспрессирующихся генов
Категория
PE-PGRS
Common Pathway For Synthesis of Aromatic Compounds (DAHP synthase to chorismate)
DNA repair, bacterial RecBCD pathway
Chorismate Synthesis
Arginine Biosynthesis extended
Категория
F0F1-type ATP synthase
Respiratory Complex I
Ribosome SSU bacterial
Ribosome LSU bacterial
TCA Cycle
Обогащено в Dorm Обогащено в Log
Анализ категорий генной онтологии (Gene Ontology, GO) и представленности генов (Gene Set Enrichment Analysis, GSEA) был предпринят при помощи программы GOseq.
(Ignatov et al., unpublished results)
IV. Перспективы транскриптомики бактерий
Перспективные направления
РНК-белковые взаимодействия
Модификации РНК Альтернативная транскрипция
Вторичная структура РНК
(Guell et al., 2011, Nat Rev Microbiol)
Перспективные направления
Пространственная организация (локализомика)
Секвенирование транскриптома одной клетки
(Guell et al., 2011, Nat Rev Microbiol)(Campos and Jacobs-Wagner, 2013, Curr Opin Microbiol)
(Raj and van Oudenaarden, 2008, Cell)
Наш коллектив
ЦНИИТ РАМН МГУ, кафедра биотехнологии
Институт биохимии им. А.Н. Баха РАН
• Апт А.С.• Майоров К.Б.
• Малахо С.Г. • Капрельянц А.С.• Салина Е.Г.
ИБХ РАН
• Ажикина Т.Л.• Игнатов Д.В.• Скворцов Т.А.
Спасибо за внимание
Сложность бактериального транскриптома
Сложность бактериального транскриптома
Сложность бактериального транскриптома
Малые РНК бактерий
Сложность бактериального транскриптома
Инфекционный цикл туберкулеза
Латентная инфекция≈2 000 000 000 человек
Стерилизация инфекцииАктивный туберкулез(вероятность – 10% в течение жизни)≈10 000 000 случаев в год
Смерть≈2 000 000 случаев в год
Трансмиссия
Излечение
Mycobacterium avium – транскриптом in vitro
(Ignatov et al., unpublished results)
Схема анализа
Новые малые РНК Mycobacterium avium
Положение sRNA-кандидатов в геноме
(Ignatov et al. 2010)
Нами были обнаружены 4 кандидатных малых РНК Mycobacterium avium, 3 из них были гомологичны уже известным малым РНК M. tuberculosis. MAV_1034-1035 не имеет гомологии в геноме M.tuberculosis и обладает стабильной вторичной структурой (RNAfold).
Поиск дифференциально экспрессирующихся генов
В Dorm клетках содержится в ≈100 раз меньше мРНК, чем в Log. Мы применили программу edgeR для поиска генов, чья относительная представленность внутри каждого из транскриптомов увеличилась/уменьшилась. (Loven et al., 2012, Cell)