Миссия Консорциума GO заключается в разработке всеобъемлющей вычислительной модели биологических систем, начиная от молекулярного и заканчивая организменным уровнем, для множества видов на древе жизни.
Генетика
Основная цель усилий по аннотации GO – создать специфические для генома аннотации, подкрепленные доказательствами, полученными в экспериментах, проведенных на аннотируемом организме. Однако многие аннотации выведены из экспериментов, проведенных на других организмах, или выведены не из экспериментов вообще, а скорее из знаний об особенностях последовательности рассматриваемого гена. Такая информация также фиксируется в аннотациях GO с помощью соответствующих кодов доказательств. Таким образом, пользователю таких аннотаций важно понимать, что отражают эти коды: либо то, что аннотация основана на экспериментальных данных, подтверждающих утверждение, либо то, что аннотация является предсказанием, основанным на структурном сходстве. Разницу между экспериментально проверенными и полученными расчетами аннотациями GO можно определить в файле аннотаций.
Решение о том, какой термин GO использовать в аннотации, зависит от нескольких факторов. Сам эксперимент накладывает некоторые ограничения на разрешение того, что можно понять из его результатов. Например, фракционирование клеток может локализовать молекулы белка в ядре клетки, а эксперименты по иммунолокализации могут локализовать молекулы того же типа белка в ядрышке клетки. В результате один и тот же ген может иметь аннотации к разным терминам в одной и той же онтологии, поскольку аннотации основаны на разных экспериментах. Предпринимаются усилия для обеспечения согласованности аннотаций посредством регулярных проверок согласованности аннотаций. В случае выявления несоответствий GOC предпринимает шаги для их устранения, работая с соответствующими кураторами и, при необходимости, со специалистами в предметной области. Ограничения экспериментальных методов могут привести к тому, что кураторы будут использовать свой собственный научный опыт при выборе термина. Важно иметь в виду, что выбор термина GO иногда делается путем вывода, сделанного комментатором на основе его или ее предыдущих знаний.
Пример:
ген Adh1 (алкогольдегидрогеназа 1) – продукта гена алкогольдегидрогеназа 1 (класс I) – молекулярная функция активность алкогольдегидрогеназы.
Термин «активность» в этом смысле используется в биохимическом контексте; и более уместно читать как означающее: «потенциальная активность».
Обратите внимание, что хотя одна и та же строка «алкогольдегидрогеназа» используется как в названии гена, так и в молекулярной функции, сама строка относится к разным объектам: в первом случае к типу молекулы; в последнем — к типу функции, которую молекула имеет склонность выполнять. Эта двусмысленность коренится в тенденции называть молекулы на основе функций, которые они выполняют, и важно понимать это различие, поскольку название молекулы и молекулярная функция, которой приписывается молекула, не обязательно совпадают.
Если мы говорим, что продукт какого-то гена потенциально может выполнять конкретную функцию, это не означает, что он на самом деле будет её выполнять. То есть, молекулы продукта гена мыши Zp2 обнаруживаются в ооците и имеют склонность связывать молекулы продукта гена типа Acr во время оплодотворения. Однако если яйцеклетка никогда не оплодотворяется, молекулы все еще существуют, и они все еще имеют склонность выполнять функцию связывания, но эта функция никогда не выполняется.
Молекулярная функция — это устойчивый потенциал продукта гена действовать определенным образом. Биологический процесс — это выполнение объектом одной или нескольких молекулярных функций, работающих вместе для достижения определенной биологической цели. Существует связь между молекулярными функциями и биологическими процессами.
С точки зрения генных аннотаций нас интересует тот факт, что молекулы какого-либо продукта гена могут быть связаны с объектами молекулярной функции (известной или неизвестной), выполнение которой способствует возникновению биологического процесса. Выводы о таких типо-типовых отношениях могут быть сделаны, потому что эксперименты предназначены для проверки того, что происходит, когда определенные биологические условия удовлетворяются в типичных обстоятельствах — обстоятельствах, в которых в результате усилий экспериментатора не вмешиваются возмущающие события. Эксперименты спроектированы так, чтобы быть воспроизводимыми и прогнозирующими, описывающие случаи, которые можно было бы ожидать найти в биологических системах, отвечающих определенным условиям. Если будущие эксперименты покажут, что предыдущие эксперименты не описывали намеченную типичную ситуацию, то выводы из предыдущих экспериментов ставятся под сомнение и могут быть повторно проанализированы и переинтерпретированы или даже полностью отвергнуты, и тогда соответствующие аннотации должны быть соответствующим образом изменены.
Подобные аннотации иногда указывают на ошибки в отношениях тип-тип, описанных в онтологии. Примером может служить удаление типа секреции серотонина как is_a дочернего элемента секреции нейротрансмиттера из онтологии GO Biological Process. Эта модификация была сделана в результате аннотации к статье, показывающей, что серотонин может секретироваться клетками иммунной системы, где он не действует как нейротрансмиттер.
В подавляющем большинстве случаев аннотации, связывающие генный продукт с типами клеточных компонентов, делаются на основе непосредственного наблюдения за объектом клеточного компонента в микроскоп. Например сообщается об эксперименте, в котором антитело, которое распознает генные продукты гена Atp1a1 , используется для маркировки местоположения объектов таких продуктов в преимплантационных эмбрионах мыши. Флуоресцентное окрашивание показывает, что продукты гена локализованы на плазматической мембране клеток этих эмбрионов. В этом случае объектами продуктов гена являются молекулы, связанные флуоресцентными антителами, а объектом клеточного компонента является наблюдаемая под микроскопом плазматическая мембрана. Соответственно, куратор использовал результаты этого эксперимента, чтобы сделать аннотацию продукта гена Atp1a1 к плазматической мембране клеточного компонента GO. Как и в случае с молекулярными функциями и биологическими процессами, существует также связь между молекулярной функцией и клеточным компонентом. Несложно предположить, что если молекула генного продукта обнаружена в объекте данного клеточного компонента, то этот генный продукт потенциально может выполнять свою функцию и в этом клеточном компоненте. Если в всё же обнаружено выполнение функции, то мы можем сделать обобщение относительно типа молекулярной функции и типа клеточного компонента.
Как и в случае молекулярной функции и биологического процесса, экспериментальные доказательства аннотаций молекулярной функции и клеточного компонента часто можно разделить. Поэтому с практической точки зрения эти онтологии также разрабатываются отдельно.
Для типов данных, указывающих на достоверность аннотации (evidence code), существует особая онтология, относящаяся к проекту ОВО. Она включает различные методы аннотирования: как осуществляемые вручную, так и автоматические. Например:
Часть доказательств связаны с неэкспериментальными аннотациями, созданными вручную. В этом случае каждая аннотация просматривается куратором, но они не являются экспериментальными в том смысле, что в основной литературе, на которой они основаны, нет прямых экспериментальных данных; вместо этого они выводятся кураторами на основе разного рода анализов.
ISS (выведено из последовательности или структурного сходства) является надклассом (т.е. родителем) кодов доказательств ISA (выведено из выравнивания последовательности), ISO (выведено из ортологии последовательности) и ISM (выведено из модели последовательности). Каждая из трех подкатегорий ISS должна использоваться, когда для вывода использовался только один метод. Например, чтобы повысить точность распространения функции по сходству последовательностей, многие методы учитывают эволюционные отношения между генами. Большинство этих методов опираются на ортологию (код доказательств ISO), потому что функция ортологов, как правило, более консервативна для разных видов, чем паралогов.
Другой подход к прогнозированию функций предполагает контролируемое машинное обучение на основе признаков, полученных из белковой последовательности (код доказательств ISM). Такой подход использует обучающий набор классифицированных последовательностей для изучения функций, которые можно использовать для вывода функций генов.
IGC (Inferred from Genomic Context) включает, помимо прочего, такие вещи, как идентичность генов, соседних с рассматриваемым генным продуктом (т.е. синтения), структуру оперона и филогенетический или другой анализ всего генома.
Относительно новыми являются четыре кода доказательств, связанных с филогенетическим анализом. IBA (выведено из биологического аспекта предка) и IBD (выведено из биологического аспекта потомка) указывают на аннотации, которые распространяются по дереву генов. Потеря активного сайта, сайта связывания или домена, критического для конкретной функции, может быть аннотирована с помощью кода подтверждения IKR (Inferred from Key Residues). Наконец, отрицательные аннотации могут быть назначены сильно расходящимся последовательностям с использованием кода IRD (Inferred from Rapid Divergence).
RCA (выведенный из Reviewed Computational Analysis) фиксирует аннотации, полученные на основе прогнозов, основанных на вычислительном анализе крупномасштабных наборов экспериментальных данных или на основе вычислительного анализа, который объединяет наборы данных нескольких типов, включая экспериментальные данные (например, данные об экспрессии, данные о взаимодействии белок-белок), данные о генетическом взаимодействии), данные о последовательности (например, последовательность промотора, структурные прогнозы на основе последовательности) или математические модели.
Далее, есть два типа аннотаций, полученных из заявлений автора. Заявление об отслеживаемом авторе (TAS), в котором цитируется результат, но не само исходное свидетельство, например, к обзорным статьям.
Последние два кода доказательств для кураторских неэкспериментальных аннотаций — IC (выведено куратором) и ND (нет доступных биологических данных). Если присвоение термина GO производится с использованием экспертных знаний куратора, выводов из контекста доступных данных, но без каких -либо прямых доказательств, используется код доказательства IC.
Код доказательства ND указывает, что функция в настоящее время неизвестна (т. е. что в настоящее время нет доступных характеристик гена). Такая аннотация делается в корне соответствующей онтологии, чтобы указать, какой функциональный аспект неизвестен.
Код доказательства IEA (вывод из электронной аннотации) используется для всех выводов, сделанных без наблюдения человека, независимо от используемого метода. Код доказательств IEA на сегодняшний день является наиболее широко используемым кодом доказательств. Руководящей идеей аннотации вычислительных функций является представление о том, что гены с похожими последовательностями или структурами, вероятно, эволюционно связаны, и, таким образом, если предположить, что они в значительной степени сохранили свою наследственную функцию, они могли бы по-прежнему выполнять аналогичные функциональные роли сегодня.
Например, изменения количества аннотаций с термином GO «АТФазная активность» (GO:0016887) с течением времени. Используйте актуальную версию онтологии/аннотаций и убедитесь, что сделанные выводы актуальны последним данным. График получен из GOTrack (http://www.chibi.ubc.ca/gotrack)
Далее рассматриваются онлайн-интерфейсы для доступа к данным и взаимодействия с ними с использованием стандартных веб-браузеров. Большинство пользователей GO могут использовать браузеры данных, такие как AmiGO, QuickGO, и браузеры данных, встроенные в более специфические базы данных.
AmiGO (http://amigo.geneontology.org) — это официальный веб-инструмент с открытым исходным кодом для запросов, просмотра и визуализации.
Генная онтология и аннотации, собранные из MOD (базы данных модельных организмов), UniProtKB и других источников (полный список организаций-членов, которые в настоящее время вносят свой вклад в GOC, на http://geneontology.org/page/go-consortium-contributors list) . Примечательные функции включают в себя: базовый поиск, просмотр, возможность загрузки пользовательских наборов данных и др.
Проект Gene Ontology Annotation (GOA) Европейской лаборатории молекулярной биологии Европейского института биоинформатики (EMBL-EBI) также предоставляет браузер QuickGO (http://www.ebi.ac.uk/QuickGO. Веб-инструмент, который позволяет легко просматривать Gene Ontology (GO) и все связанные электронные и ручные аннотации GO, предоставляемые группами аннотаций консорциума GO.
AmiGO и QuickGO используют одни и те же наборы данных GO с несколько разными реализациями в зависимости от требований источников финансирования и соответствующих пользователей. AmiGO в целом является продуктом Консорциума GO и официальным каналом для распространения наборов данных GO в соответствии с рекомендациями по финансированию NHGRI-NIH. QuickGO производится, управляется и финансируется EMBL-EBI; члены руководящего состава QuickGO также являются членами GOC.
Страницы браузеров AmiGO (A) и QuickGO (B)
Это оставит пользователю все аннотации GO, прямо или косвенно аннотированные «дифференциацией эпителиальных клеток» (GO:0009913), которые не относятся к человеческим данным и имеют какие-то экспериментальные данные, связанные с ними.
Процесс аннотации фиксирует активность и локализацию генного продукта с использованием терминов GO, предоставляя ссылку и указывая вид доступных доказательств в поддержку присвоения каждого термина с использованием кодов доказательств. В настоящее время основным форматом аннотационной информации в GO является файл ассоциации генов (GAF, http://geneontology.org/page/go-annotation-file-formats). Это стандартизированный формат файла, который члены Консорциума используют для отправки данных. Данные аннотаций хранятся в простых текстовых файлах с разделителями табуляцией, где каждая строка в файле представляет собой единую ассоциацию между продуктом гена и термином GO, с кодом доказательства, ссылкой для поддержки связи между ними и другой информацией. Формат файла GAF имеет несколько различных «разновидностей», самая последняя версия — 2.1. Недавно были разработаны файлы GPAD/GPI, которые по существу представляют собой нормализованную версию информации GAF. Ожидается, что в будущем они станут более популярными, и более подробную информацию о них можно найти на веб-сайте GO (http://geneontology.org/page/go-annotation-file-formats).
Генно-категориальный анализ — очень известный вариант использования Gene Ontology. Неудивительно, что пользователи могут выбирать из множества программных реализаций, которые будут выполнять такого рода анализ. Например, текущая версия веб-сайта Gene Ontology Consortium (geneontology.org) предоставляет доступ к методу точного теста Фишера прямо на первой странице. Существуют также графические инструменты, которые интегрируются в существующие фреймворки, такие как BiNGO, автономные графические клиенты, такие как Ontologizer5, или пакеты для Bioconductor, такие как topGo, mgsa или gCMAP.
Для обеспечения возможности структурированного описания экспериментальных, вычислительных и других типов доказательств для поддержки утверждений, зафиксированных в научных базах данных была создана Онтология доказательств и выводов (ECO) (http://eviden ceontology.org). ECO описывает несколько типов доказательств, в том числе доказательства, полученные в результате экспериментальных (т. е. мокрых лабораторных) методов; доказательства, полученные в результате вычислительных методов, заявления, сделанные авторами (независимо от того, подтверждены ли они доказательствами) и выводы, сделанные исследователями, курирующими литературу. В дополнение к обобщению доказательств, подтверждающих конкретное утверждение, ECO также предлагает средства для документирования того, выполнял ли компьютер или человек процесс создания аннотации. Включение ECO в систему аннотаций позволяет использовать структуру онтологии таким образом, что связанные данные могут быть сгруппированы иерархически, пользователи могут выбирать данные, связанные с конкретными типами доказательств, а конвейеры контроля качества могут быть оптимизированы. Сегодня более 30 ресурсов, включая онтологию генов, используют онтологию доказательств и выводов для представления как доказательств, так и того, как делаются аннотации.
Упрощенное представление ECO с общей структурой. ECO включает в себя два корневых класса вместе с их соответствующими иерархиями, доказательства (термины черного цвета) и метод утверждения (термины розового цвета)
ECO также включает в себя такие типы доказательств как «вывод куратора» и «заявление автора».
В дополнение к описанию доказательств ECO также может описывать средства, с помощью которых делаются утверждения, т. е. человеком или машиной. ECO называет это «методом утверждения» и определяет его как «средство, с помощью которого делается утверждение об объекте». Например, если куратор делает аннотацию после прочтения экспериментального результата в научной статье или после ручной оценки результатов парного выравнивания последовательностей, ECO может указать, что использовался ручной метод курирования . И наоборот, если алгоритм использовался для присвоения предсказанной функции белку, ECO может указывать на то, что использовался автоматизированный вычислительный метод. Таким образом, «метод утверждения» образует второй корневой класс с двумя ответвлениями: «ручное утверждение» и «автоматическое утверждение».
Текущая версия ECO включает 630 терминов, описывающих перекрестные произведения «доказательство», «метод утверждения» или «доказательство x метод утверждения».
Например, пользователь вводит слово «proteolysis» в поле запроса (рис. 1а) и видит количество совпадений (рис. 1б). Затем, после нажатия на «Annotations» в синем прямоугольнике, пользователь видит все термины, связанные с аннотациями, которые имели совпадения с «proteolysis» (рис. 2а, б). При нажатии на «Evidence» в поле фильтра (рис. 2а) разверните его, чтобы отобразить все составляющие типы доказательств (рис. 3).
Нажатие на «traceable author statement used in manual assertion» откроет подмножество результатов, соответствующих этому более строгому фильтру (рис. 4). В поле фильтра доказательств теперь написано «Nothing to filter» (рис. 5).
Итого. Цель проекта Gene Ontology (GO) — предоставить единый способ описания функций генных продуктов организмов во всех царствах жизни и, таким образом, сделать возможным анализ геномных данных. Это постоянный процесс, поскольку наше понимание биологии растет и совершенствуется. Это вычислительная модель биологической реальности, и мы надеемся, что каждый исследователь с радостью внесет свой вклад и будет считать ее оптимальным средством обмена знаниями, полученными в ходе собственных исследований.
Увеличение продолжительности жизни мух за счет комбинации отдельных генов, что в последствие может быть перенесено на человека