Как работает KEGG

Генетика

В 1995 г. учёные из Киотского университета инициировали проект базы данных KEGG (Киотская энциклопедия генов и геномов) в рамках Японской программы генома человека для биологической интерпретации данных о последовательностях генома. Основная цель KEGG состояла в том, чтобы установить связи наборов генов в геноме с высокоуровневыми функциями клетки и организма. Среди прочего, разработали базу данных KEGG PATHWAY как представление функций высокого уровня, базу данных KEGG GENES как набор полностью секвенированных геномов и базу данных KO (KEGG Orthology) для связывания генов с функциями высокого уровня. 

На 19 июля 2022 года в KEGG насчитывается более 25 000 данных в KEGG Orthology. А количество генов для разных организмов описанных в базе близко к 42 миллионам. Всего организмов в KEGG 8 234, из них: 770-эукариоты, 7072-бактерии, 392-археи.

Статистика базы KEGG. Обновляется ежедневно. https://www.kegg.jp/kegg/docs/statistics.html

Аннотация генома в KEGG выполняется иначе, чем в большинстве других баз данных. 

Во-первых, молекулярные функции хранятся в базе данных KO и связаны с группами ортологов, чтобы можно было распространить экспериментальные данные с конкретного организма на другие организмы. Аннотирование отдельных генов в базе данных GENES заключается в простом создании ссылок на базу данных KO путем присвоения идентификаторов записей KO, называемых K-числами. 

Во-вторых, группы ортологов определяются в контексте карт путей KEGG и других молекулярных сетей, которые созданы из K узлов. Таким образом, процедура аннотации генома для преобразования набора генов в геноме в набор чисел K приводит к автоматической реконструкции путей KEGG и других сетей, что позволяет интерпретировать функции высокого уровня. 

В начале 2015 года добавили категории вирусов и плазмид, которые важны для анализа метагеномов и устойчивости к противомикробным препаратам соответственно. Затем представили категорию дополнений, где впервые начали собирать данные о последовательностях белков из опубликованной литературы, а не просто импортировать полные последовательности генома из RefSeq или GenBank. Это необходимо, потому что карта путей, созданная на основе литературной информации, иногда содержит гены и белки организмов, последовательности генома которых неизвестны.

Категория genomic information (геномная информация) содержит базы данных GENOME и GENES для коллекций организмов с полными геномами и их каталоги генов, которые в основном взяты из баз данных RefSeq и GenBank.

База данных KO, содержащая группы ортологов, связанные с молекулярными функциями, является центром для связывания геномной информации с systems information (системная информация) посредством процедуры картирования KEGG, а также с Chemical information (химическая информация) за счет метаболической сети.

Базы данных COMPOUND, GLYCAN, REACTION, RPAIR, RCLASS и ENZYME в категории химической информации содержат химические вещества и реакции и по историческим причинам называются KEGG LIGAND. База данных ENZYME происходит от базы данных Номенклатуры ферментов. Существует также небольшой набор данных реакционных модулей, которые можно использовать для аннотирования генов ферментов.

Категория Health information (информация, связанная со здоровьем человека) состоит из баз данных DISEASE, DRUG, DGROUP и ENVIRON для информации о болезнях и лекарствах. DGROUP — это относительно недавно добавленная база данных, которая разрабатывается для группировки функционально идентичных или сходных лекарств в сетях взаимодействия лекарств. KEGG MEDICUS — это интерфейс для широкой публики, объединяющий эти разработанные внутри компании базы данных с вкладышами всех лекарств, продаваемых в Японии и США. Японская версия KEGG MEDICUS особенно продвинута в этой интеграции, и доступ к ней в основном осуществляется через поисковые системы.

Экспериментальные доказательства

Разработка базы данных KO тесно связана с развитием молекулярных сетей KEGG, включая карты путей KEGG, функциональные иерархии BRITE и модули KEGG. В идеале KO представляет группу подобия одной последовательности с соответствующим уровнем сходства. На самом деле есть ряд сложностей. Один KO может состоять из нескольких групп подобия последовательностей. Пока составляющие группы подобия последовательностей хорошо определены, программа KOALA (KEGG Orthology and Links Annotation) для вычислительного назначения K чисел работает хорошо. Тем не менее, все еще существует небольшое количество устаревших KO связанные данные о последовательности которых четко не определены.

Внутренне группировка KO постоянно обновляется засчёт ручной проверки процедуры аннотации KOALA. Для сторонних пользователей основа группировки КО и ее соответствие молекулярной функции должны быть разъяснены экспериментальными данными. Таким образом, были предприняты серьезные усилия по аннотированию отдельных KO справочной информацией, сообщающей об экспериментах по функциональной характеристике генов и белков, и, когда это возможно, данными о последовательностях белков, использованными в экспериментах, например, представленными в INSDC (DDBJ/ENA/GenBank). 

Эукариоты и прокариоты с полными геномами составляют организмы KEGG, идентифицируемые трех- или четырехбуквенными кодами организмов. Как показано во второй таблице, существуют три дополнительные категории: вирусы, плазмиды и дополнение, с двухбуквенными кодами vg, pg и ag соответственно. Категории вирусов и плазмид взяты из коллекций RefSeq. Уровень аннотирования (присвоение K-номера) очень низок для вирусов, около 7% по сравнению с 46% для организмов KEGG, но эта категория полезна при аннотации метагенома. Многие плазмиды включены в полные геномы организмов KEGG, а остальные отобраны и сохранены в категории плазмид.

Категория дополнений представляет собой набор записей последовательностей белков, созданных вручную. На картах путей KEGG раньше были случаи, когда в организмах с помощью  KEGG не могли быть найдены соответствующие гены, были даны только связи с UniProt. Чтобы связать их с данными о последовательности и числами K, создаются записи в дополнении с использованием исходных данных о последовательности с номерами доступа к белкам Международной базы данных последовательностей нуклеотидов (INSDC). Кроме того, есть области, в которых создаются записи последовательностей. Одной из них является номенклатура ферментов. Еще одной областью внимания является устойчивость к противомикробным препаратам (УПП). УПП это значимая проблема  в лечении инфекционных заболеваний и осложнений. Традиционно в базе данных KEGG есть различное содержимое для инфекционных заболеваний и противомикробных препаратов, в том числе карты путей KEGG для инфекционных заболеваний, карты метаболических путей KEGG для биосинтеза антибиотиков, карты структуры лекарств KEGG для истории разработки противомикробных препаратов и записи KEGG DRUG для всех препаратов, используемые в настоящее время.

Внутренне группировка KO постоянно обновляется засчёт ручной проверки процедуры аннотации KOALA. Для сторонних пользователей основа группировки КО и ее соответствие молекулярной функции должны быть разъяснены экспериментальными данными. Таким образом, были предприняты серьезные усилия по аннотированию отдельных KO справочной информацией, сообщающей об экспериментах по функциональной характеристике генов и белков, и, когда это возможно, данными о последовательностях белков, использованными в экспериментах, например, представленными в INSDC (DDBJ/ENA/GenBank). 

BlastKOALA и GhostKOALA

Благодаря процедуре аннотации генома в KEGG база данных GENES становится структурированной с точки зрения групп KO. Это облегчает обработку результатов поиска сходства последовательностей с базой данных GENES, которая заключается в простом назначении наиболее подходящих номеров K, что реализовано в автоматических службах аннотаций KAAS и недавно выпущенных BlastKOALA и GhostKOALA. BlastKOALA подходит для аннотирования полностью секвенированных геномов, а GhostKOALA, использующий GHOSTX и работающий в 100 раз быстрее, подходит для аннотирования больших наборов данных, таких как метагеномы. Оба присваивают номера K для запроса аминокислотных последовательностей и позволяют отображать KEGG для интерпретации функций высокого уровня. В BlastKOALA наиболее подходящие числа K определяются методом, аналогичным программе KOALA, используемой внутри компании для аннотирования организмов KEGG. В GhostKOALA только самые высокие баллы проверяются на присвоение номера K. Еще одной функцией GhostKOALA является присвоение таксономических композиций. Для этого набор данных пангенома для GhostKOALA дополняется последовательностями, выбранными из кластеров CD-HIT, добавляя последовательности без номеров K в каждом таксономическом ранге и вирусные последовательности, тем самым представляя разнообразие последовательностей базы данных GENES.

Категория дополнений представляет собой набор записей последовательностей белков, созданных вручную. На картах путей KEGG раньше были случаи, когда в организмах с помощью  KEGG не могли быть найдены соответствующие гены, были даны только связи с UniProt. Чтобы связать их с данными о последовательности и числами K, создаются записи в дополнении с использованием исходных данных о последовательности с номерами доступа к белкам Международной базы данных последовательностей нуклеотидов (INSDC). Кроме того, есть области, в которых создаются записи последовательностей. Одной из них является номенклатура ферментов. Еще одной областью внимания является устойчивость к противомикробным препаратам (УПП). УПП это значимая проблема  в лечении инфекционных заболеваний и осложнений. Традиционно в базе данных KEGG есть различное содержимое для инфекционных заболеваний и противомикробных препаратов, в том числе карты путей KEGG для инфекционных заболеваний, карты метаболических путей KEGG для биосинтеза антибиотиков, карты структуры лекарств KEGG для истории разработки противомикробных препаратов и записи KEGG DRUG для всех препаратов, используемые в настоящее время.

Внутренне группировка KO постоянно обновляется засчёт ручной проверки процедуры аннотации KOALA. Для сторонних пользователей основа группировки КО и ее соответствие молекулярной функции должны быть разъяснены экспериментальными данными. Таким образом, были предприняты серьезные усилия по аннотированию отдельных KO справочной информацией, сообщающей об экспериментах по функциональной характеристике генов и белков, и, когда это возможно, данными о последовательностях белков, использованными в экспериментах, например, представленными в INSDC (DDBJ/ENA/GenBank). 

Далее описаны некоторые протоколы по работе с KEGG.

Протокол 1

РЕСУРС БАЗЫ ДАННЫХ KEGG: НАЧАЛО РАБОТЫ

Этот протокол представляет собой введение в ресурс базы данных KEGG. KEGG состоит из пятнадцати основных баз данных, показанных в таблице 1.12.1 (Kanehisa et al., 2012). Каждая запись в базе данных, за исключением записей в KEGG GENES и KEGG ENZYME, идентифицируется уникальным идентификатором, состоящим из префикса, зависящего от базы данных, и пятизначного числа, называемого номером карты. KEGG GENES и KEGG ENZYME получены из RefSeq (Pruitt et al., 2012) и ExplorEnz (McDonald et al., 2009) соответственно, и используются идентификаторы исходных баз данных, а именно локус-тег или NCBI Gene ID для GENES. И номер ЕС для ENZYME.

  1. Откройте домашнюю страницу веб-сайта KEGG по адресу http://www.kegg.jp/. Домашняя страница содержит точки входа в наиболее широко используемые базы данных и инструменты анализа.
  2. Выберите ссылку KEGG2 на домашней странице, обозначенную как основная точка входа в KEGG, которая открывает список KEGG, содержащий все доступные базы данных и вычислительных инструментов (рис. 1.12.1).
  1. Вернитесь на домашнюю страницу и откройте ссылку KEGG PATHWAY. Либо нажмите KEGG PATHWAY на странице KEGG2. Откроется страница базы данных KEGG PATHWAY.
    Ссылки KEGG2 и PATHWAY (а также ссылки BRITE и MODULE) всегда находятся на панели навигации, которая имеет цветовую кодировку: желтый для верхнего уровня и другие (фиолетовый, красный и синий) для подуровня.
  2. Эта страница содержит список всех доступных KEGG pathway map.

Здесь они подразделяются на четыре типа.

а. Metabolic pathway maps (карты метаболических путей) (категории 0. Глобальная карта и 1. Метаболизм), описанные в основных протоколах 2 и 3.

б. Regulatory pathway maps (карты регуляторных путей) (Категории 2. Обработка генетической информации, 3. Обработка информации об окружающей среде, 4. Клеточные процессы и 5. Системы организма), описанные в Базовом протоколе 4.

в. Disease pathway maps (карты путей распространения болезней) (Категория 6. Болезни человека), описанные в Основном протоколе 5.

д.  Drug structure maps (карты структуры лекарств) (категория 7. Разработка лекарств), описанные в Основном протоколе 6.

  1. Вернитесь на домашнюю страницу и нажмите KEGG Organisms, чтобы открыть таблицу, содержащую все доступные геномы в KEGG.

Каждый геном идентифицируется трехбуквенным кодом организма (в дополнение к числу Т, показанному в таблице 1.12.1), например, «hsa» для Homo sapiens (человек).

  1. Левая боковая панель домашней страницы KEGG содержит ссылки на полезную информацию и документацию. Например, «Current statistics» позволяет увидеть количество записей данных в отдельных базах данных KEGG, большинство из которых обновляются ежедневно.
  2. Окно поиска вверху можно использовать для поиска по ключевому слову в KEGG. Введите, например, alzheimer, чтобы просмотреть записи KEGG, связанные с болезнью Альцгеймера.
  3. Это окно поиска также можно использовать для прямого поиска конкретной записи в базе данных KEGG путем ввода ее уникального идентификатора, префикса плюс пятизначного числа, номера EC или идентификатора гена в форме org:gene, где org — это трехбуквенный код организма и ген – это тег локуса или идентификатор гена NCBI. Попробуйте ввести, например, map00020, 2.3.3.1 или hsa:1956.

Протокол 2

KEGG PATHWAY: КАРТА МЕТАБОЛИЧЕСКОГО ПУТИ

Этот протокол представляет собой введение в базу данных KEGG Pathway. KEGG 

Pathway представляет собой набор нарисованных вручную справочных диаграмм или карт, каждая из которых соответствующий известному биологическому пути функционального значения. Кроме того, к нарисованным вручную эталонным путям есть генерируемые компьютером специфические для организма пути. 

  1. Получите доступ к базе данных KEGG PATHWAY, открыв ссылку KEGG PATHWAY на домашней странице KEGG или на странице KEGG2. 
  2. Существует два типа метаболических карт: глобальные карты и обычные (или традиционные) карты. Щелкните «“Citrate cycle (TCA cycle)» в категории «1.1 Carbohydrate Metabolism», чтобы просмотреть обычную метаболическую карту (map00020), показанную на рис. 1.12.2.
  1. Элементы на карте путей представлены различными символами, которые могут иметь несколько разные значения в разных типах карт путей.

а. Прямоугольники – генные продукты (белки), связанные с записями KEGG ORTHOLOGY (KO) в эталонных путях и записями KEGG GENES в специфических для организма путях.

б. Маленькие кружки обозначают химические соединения, гликаны и другие молекулы, связанные с KEGG COMPOUND, KEGG GLYCAN и другими элементами.

в. Большие овалы – ссылки на другие карты пути.

д. Чтобы понять различные обозначения можно нажать “Справка”.

  1. В верхнем левом углу расположено раскрывающееся меню для выбора эталонных путей и названий организмов. Они отличаются префиксом, например map00020, ko00020, ec00020, rn00020 и hsa00020, а также цветом прямоугольников и ссылок из прямоугольников.

а. В метаболических картах есть четыре типа эталонных путей. Пути с префиксом ko, ec и rn связаны с записями KO, ENZYME и REACTION, соответственно, с синей окраской прямоугольников. Выбрав «Reference pathway (EC)», нажмите на прямоугольник, отмеченный цифрой 2.3.3.1, чтобы увидеть информацию для этой записи ENZYME. Нажмите на кружок, помеченный цитратом, чтобы увидеть информацию для этой записи и тд.

б. Выпадающее меню организмов можно использовать для раскрашивания частей пути, которые, как известно, существуют для любого данного организма. Выберите, например, «Homo sapiens (человек)», чтобы отобразить путь зеленого цвета с задействованными человеческими генами. Затем снова щелкните тот же прямоугольник, чтобы увидеть, что теперь он связан с соответствующей записью GENES. 

в. Выпадающее меню также включает «Homo sapiens (human) + Disease/drug», в котором гены известных болезней отображаются розовым цветом, а мишени для лекарств — голубым. 

д. Поскольку количество полных геномов быстро увеличивается, выпадающее меню организмов становится очень длинным. Может быть проще выбрать путь для конкретного организма из ссылки «Organism menu».

  1. Вернитесь на страницу базы данных KEGG PATHWAY и нажмите «Metabolic pathways [zoom out]” under the category of “0. Global Map». Глобальные карты составляются путем комбинирования обычных карт вручную, чтобы представить общую картину как первичного, так и вторичного метаболизма. 

а. На глобальной карте нет прямоугольников; вместо этого ребра связаны с записями KO, ENZYME, REACTION и GENES. 

б. Эталонная глобальная карта окрашена в соответствии с классификацией метаболизма (от 1.1 до 1.11 на странице базы данных KEGG PATHWAY), поэтому карты для конкретных организмов создаются путем обесцвечивания частей без соответствующих генов.

Выберите, например, «Homo sapiens (человек)», а затем «Arabidopsis thaliana (кресс-салат)», чтобы увидеть разницу между метаболизмом животных и растений.

KEGG PATHWAY: СРАВНЕНИЕ И КОМБИНАЦИИ ГЕНОМОВ

Карты метаболических путей KEGG, особенно глобальные карты, широко используются для изучения метаболических способностей, выведенных из геномных, транскриптомных, метагеномных и других данных, а также для сравнения или объединения метаболических способностей нескольких организмов. В этом протоколе представлены методы прямого доступа к специфическим для организма путям.

  1. Здесь приведены три примера. Первый предназначен для одного организма.

а. Для этого нужно перейти на домашнюю страницу KEGG. Ввести код организма, например hsa, в маленькое окно поиска в разделе «Organism-specific entry points» и нажать «Go». 

б. Либо можно перейти на страницу KEGG2. Ввести код организма в разделе «KEGG for specific organisms» и нажать «Go».

в. Откроется сводная страница для этого организма. Щелкните ссылку Pathway на панели навигации, чтобы увидеть весь набор карт путей, доступных для этого организма.

  1. Второй пример касается сравнения нескольких организмов или комбинаций. 

а. Снова вернитесь на домашнюю страницу KEGG. На этот раз введите

два кода организма, разделенные пробелом или объединенные знаком плюс, например “hsa ath” или “hsa+ath”.

б. Либо сделать аналогично первому примеру на странице KEGG2, в разделе «KEGG mapping for genome comparison and combination», и нажмите «Go».

в. Откроется сводная страница для данного набора организмов. Кликните на «Pathway maps» на панели навигации, чтобы увидеть доступный список путей. Выберите глобальную карту метаболизма 01100.

д. Глобальная карта теперь отображается тремя цветами: зеленым для элементов путей, характерных для первого организма (hsa — Homo sapiens), красным для элементов, характерных для второго организма (ath — Arabidopsis thaliana), и синим для элементов, общих для двух организмов. организмы (рис. 1.12.3).

  1. Третий пример относится к группе организмов, включая пангеном.

а. Откройте домашнюю страницу KEGG. Перейдите в «KEGG Organisms» в разделе «Organism-specific entry points». В отображаемой таблице «KEGG Organisms: Complete Genomes» нажмите на любое из названий категорий, например «Позвоночные».

б. Чтобы просмотреть карты пути группы, нужно открыть ссылку «Pathway maps» на панели навигации. Выберите, например, карту метаболизма 00010 Гликолиз/Глюконеогенез. Количество генов, соответствующих каждому узлу (прямоугольнику), показано цветовой градацией.

в. Вернитесь к таблице «KEGG Organisms: Complete Genomes». В правом верхнем углу есть ссылка Pan. Кликните по этой ссылку, чтобы просмотреть список пангеномов KEGG. Здесь можно выбрать любое название вида, например «Escherichia coli», чтобы получить коллекцию различных штаммов.

д. В качестве альтернативы на странице KEGG2 нужно ввести название категории, либо название группы организмов, либо название пангеномного вида в разделе «KEGG mapping for genome comparison and combination» и нажать Go.

е. Цветовая градация также используется в каждой карте.

KEGG GENES: GENE CATALOGS OF COMPLETE GENOMES

База данных KEGG GENES представляет собой набор каталогов полных геномов с высококачественными данными о последовательностях. Для прокариот все геномы, доступные на ftp-сайте NCBI RefSeq (ftp://ftp.ncbi.nih.gov/genomes/Bacteria/), включены в KEGG GENES. Для эукариот большая часть данных взята из релиза RefSeq (ftp://ftp.ncbi.nih.gov/refseq/release/). 

  1. Получить доступ к базе данных KEGG GENES можно с главной страницы KEGG или или KEGG2.
  2. Окно поиска в верхней части используется для получения записи GENES или для поиска в базе данных SSDB (Sequence Similarity Database). Например, регулятор проводимости (CFTR) у человека (рис. 1.12.11).

а. Поле ввода содержит номер 1080, который в данном случае соответствует идентификатору гена NCBI.

б. Названия и определения генов в следующих двух полях взяты из RefSeq без каких-либо изменений. 

в. Поле Orthology содержит аннотацию, заданную KEGG, которая является назначением группы KEGG Orthology (KO), определяемой номером K.

д. Следующие поля содержат ссылки на другие базы данных KEGG, содержащие информацию о путях, в которые вовлечен продукт гена, заболеваниях, связанных с геном, лекарствах, нацеленных на продукт гена, и иерархии BRITE для классификации генов/белков.

е. Поля SSDB и Motif содержат инструменты поиска в базе данных KEGG SSDB.

ф. Поле «Other DBs» предоставляет ссылки на внешние базы данных, которые содержат соответствующую информацию. Поле «All links» справа представляет собой сводку ссылок через систему GenomeNet LinkDB. Поле PDB содержит ссылки на данные 3D-структуры, если таковые имеются.

  1. Поле «Position» указывает расположение этого гена в геноме, а кнопка «Genome map», если она доступна, отобразит положение этого гена на карте хромосом.

я. Поля AA seq и NT seq можно использовать для извлечения данных о последовательности для дальнейшего анализа, такого как поиск сходства последовательностей с использованием BLAST или FASTA.

  1. Вернитесь на страницу базы данных KEGG GENES. Два поля поиска в первом разделе каталогов генов используются для поиска по ключевым словам, одно по всей базе данных GENES, а другое по конкретному организму.
  2. Существуют дополнительные каталоги генов, в том числе DGENES для черновиков геномов, EGENES для EST-контигов и MGENES для метагеномов, которым даются автоматические аннотации, а также VGENES без каких-либо аннотаций. Они предназначены для дополнения резерва организмов KEGG полными геномами.
Читайте также

Генетическое редактирование

Увеличение продолжительности жизни мух за счет комбинации отдельных генов, что в последствие может быть перенесено на человека

Подробнее

Напишите нам