Машинное обучение связало с ишемическим инсультом два новых гена
Команда ученых из ВШЭ и НИЦ «Курчатовский институт» применила методы машинного обучения для исследования генетической предрасположенности к инсульту. Анализ геномов более чем 5000 человек позволил выявить 131 ген, ассоциированный с риском ишемического инсульта. Для двух генов связь показали впервые. Работа опубликована в PeerJ Computer Science. Об этом CNews сообщили представители НИУ ВШЭ.
Ишемический инсульт — одна из главных причин смертности и инвалидности во всем мире. Это состояние возникает из-за нарушения кровоснабжения мозга, что приводит к гибели клеток и нарушает работу его отделов. Ученые давно изучают генетические факторы, влияющие на риск развития инсульта, но окончательного списка генов предрасположенности к нему пока нет. Надежды в этом вопросе возлагают на методы искусственного интеллекта.
Группа ученых факультета компьютерных наук НИУ ВШЭ и Курчатовского института предложила использовать алгоритмы машинного обучения для анализа генетической предрасположенности к инсульту. Они проанализировали данные о геномах 5500 не состоящих в родстве человек старше 55 лет, среди которых были пережившие ишемический инсульт и их здоровые люди. Данные для исследования были собраны в 11 лабораториях Европы и 13 лабораториях Америки.
Анализ основывался на идее ранжирования через обучение. Сначала исследователи создали прогнозную модель, в которой главным параметром было наличие или отсутствие инсульта. В качестве признаков использовали однонуклеотидные полиморфизмы (SNP) — различия в геноме на одинаковых участках. Затем они ранжировали эти признаки и выбрали самые значимые.
Анализ и отбор SNP производили несколькими методами, и это позволило по-новому проанализировать данные и выделить гены, которые ранее не были ассоциированы с ишемическим инсультом. Список «подозрительных» генетических маркеров, которые были общими для двух и более методов, позволил говорить о надежности результатов.
«Работа с таким массивом данных — почти 900 тыс. одиночных нуклеотидных полиморфизмов на пять с половиной тысяч участников — потребовала от нас отойти от чисто статистических методов анализа. Машинное обучение дало возможность это все обработать. В результате мы идентифицировали 131 ген, большая часть из них уже была ассоциирована с ишемическим инсультом. Но ассоциацию двух из них мы обнаружили впервые», – сказал Дмитрий Игнатов, заведующий Научно-учебной лабораторией моделей и методов вычислительной прагматики ФКН НИУ ВШЭ.
Ученые впервые обнаружили, что с инсультом связан ген ACOT11, который участвует в метаболизме жирных кислот и, как показали эксперименты на животных, может влиять на воспалительные процессы и уровень липидов в крови. Второй «новый» для ишемического инсульта ген, UBQLN1, участвует в работе механизмов защиты клеток от окислительного стресса. Есть данные о связи мутации в этом гене с нейродегенеративными заболеваниями.
Эти открытия могут помочь в создании мультигенных рисковых моделей, которые способны предсказывать предрасположенность к инсульту у конкретного человека. Также информация о выявленных генах может стать основой для разработки лекарств и методов терапии, направленных на уменьшение риска возникновения ишемического инсульта.
«Найти два новых ассоциированных с инсультом гена — отличный результат для любого метода. У нашего подхода с использованием машинного обучения явно хорошие перспективы для обнаружения генов, ассоциированных с заболеваниями, возникающими вследствие множества факторов», – отметил Геннадий Хворых, главный специалист НИЦ «Курчатовский институт».
Предложенный подход к анализу генетических маркеров демонстрирует универсальность и может быть эффективно адаптирован для широкого спектра исследований, выходящих за рамки изучения ишемического инсульта. Методология применима к любым заболеваниям или признакам, для которых доступны данные в формате «образец — SNP — класс».
«Хотя первоначально мы разрабатывали этот инструмент для конкретной задачи, результаты показали его потенциал в более широком контексте. Возможность работать с разнообразными генетическими данными делает наш метод полезным для исследователей из различных областей биологии и медицины», – сказал Стефан Николич, выпускник ФКН и аспирантской школы по компьютерным наукам ВШЭ.