Эран Элхаик: «Самая большая ложь из серии — я сделал пять тестов и вот что узнал»

Ученый Лундского университета в Швеции выявил недостатки в популярном генетическом методе в тестах на происхождение

У самого распространенного аналитического метода в популяционной генетике масса изъянов, говорится в новом исследовании Лундского университета в Швеции. Это могло привести к неверным результатам и заблуждениям об этническом происхождении и генетических отношениях, объяснил в блиц-интервью «Реальному времени» автор статьи, доктор, доцент молекулярной клеточной биологии вуза Эран Элхаик. Данный метод используется в сотнях тысяч исследованиях, влияя на результаты в медицинской генетике и даже в коммерческих тестах на происхождение. Исследование было напечатано в Scientific Reports.

Результаты тестов на происхождение не были надежными

Темпы сбора научных данных растут по экспоненте, приводя к огромным и очень сложным наборам данных, что получило название «революция больших данных». Чтобы сделать эти данные более управляемыми, исследователи используют статистические методы, направленные на сжатие и упрощение, при этом сохраняя большую часть ключевой информации.

Метод главных компонент (principal component analysis, PCA), пожалуй, является самым широко используемым способом. Представьте, что метод главных компонент — это печь с мукой, сахаром и яйцами в качестве вводных данных. Печь всегда совершает одно и то же действие, но итог — торт — сильно зависит от пропорций ингредиентов и от того, как они смешаны.

— Ожидается, что этот метод даст правильные результаты из-за его частого применения. Но это ни гарантия достоверности, ни получение статистически надежных выводов, — говорит доктор Эран Элхаик, доцент молекулярной клеточной биологии в Лундском университете.

realnoevremya.ru/Максим Платонов

Согласно Элхаику, этот метод помог создать старые представления о расах и национальностях. Он играет роль в создании исторических преданий не только научным сообществом, но и коммерческими компаниями, занимающимися поиском предков — от кого и откуда произошли люди. Известным примером является тест на происхождение, сделанный видным американским политиком до президентской кампании в 2020 в поддержку исконных правопритязаний. Другой пример — неверное из-за применения метода главных компонентов представление о том, что евреи-ашкенази — это раса или изолированная группа.

— Исследование демонстрирует, что эти результаты не были надежными, — говорит Эран Элхаик.

Результаты исследований должны быть переоценены

PCA используется во многих научных направлениях, однако исследование Элхаика делает акцент на его использовании в популяционной генетике, где стремительный рост масштаба набора данных стоит особенно остро, что вызвано сокращенными расходами на секвенирование ДНК.

Сфера палеогеномики, где мы хотим узнать о древних людях и отдельных людях, таких как европейцы медного века, сильно зависит от РСА. Этот метод используется для создания генетической карты: он располагает неизвестный образец рядом с известными референсными образцами. До сих пор считалось, что неизвестные образцы относятся к любой референсной популяции, с которой они пересекаются или ближе всего располагаются на карте.

В то же время Элхаик обнаружил, что неизвестный образец можно намеренно расположить рядом практически с любой референсной популяцией, только лишь изменив цифры и типы референсных образцов и создав почти бесконечные исторические версии. Все версии математически «верны», но лишь одна может быть верна биологически.

В исследовании ученый проанализировал 12 самых известных популяционных генетических применений РСА. Он использовал как симулированные, так и реальные генетические данные, чтобы показать, насколько гибкими могут быть результаты РСА. Как говорит доктор Элхаик, эта гибкость означает, что нельзя верить заключениям, основанным на РСА, так как любое изменение в референсе или образцах теста приведет к другим результатам.

Фото realnoevremya.ru

Авторы от 32 000 до 216 000 научных статей лишь по генетике использовали РСА для изучения и визуализации сходства и различий между отдельными людьми и популяциями, и выводы в статьях были основаны на этих результатах.

— Я уверен, что эти результаты должны быть переоценены, — говорит Элхаик.

Он надеется, что новое исследование создаст лучший подход к оценке результатов и тем самым поможет сделать науку более надежной. Доктор Элхаик посвятил значительную часть последнего десятилетия открытию таких методов, как географическая популяционная структура (GPS) для предсказывания биогеографии из ДНК и программу попарных сравнений Pairwise Matcher для улучшения совпадений в исследованиях «случай-контроль» в генетических тестах и испытаниях лекарств.

— Методы, предлагающие такую гибкость, способствуют плохой науке и являются особо опасными в мире, где оказывается большое давление на необходимость публикации. Если исследователь прогоняет РСА несколько раз, всегда будет соблазн выбрать результат, который создаст лучшую историю, — добавляет профессор Уильям Амос из Кембриджского университета, который не участвовал в исследовании.

«Индустрия по определению генетического происхождения основана на байках»

Эксклюзивно для «Реального времени» доктор Эран Элхаик ответил на несколько вопросов.

— Означает ли это, что большая часть тестов на происхождение неверна?

— Если они откалиброваны на основе РСА, как это открыто признает 23andme, то да, результаты будут необъективными. Другие компании не желают делиться своими алгоритмами. В то время как My True ancestry существенно полагается на РСА.

— Кто должен нести ответственность за эти недостатки, поскольку так много людей по всему миру потратили огромные деньги на эти тесты?

— Научное сообщество и СМИ. Ученые — за использование методов без должной осмотрительности и критического мышления. Рецензенты и редакторы — за игнорирование этих проблем. Журналы — за публикацию раскрученных исследований, хотя иногда они прекрасно знали, что исследования неверны. СМИ — за еще большее раскручивание исследований. Это беспроигрышный цикл для каждого вовлеченного в индустрию.

А страдают ученые, заинтересованные в правде, — медицинские исследователи и т.д. И общественность, которая полагается на эти исследования для принятия медицинских решений или изучения своих предков (см. случай сенатора Уоррен). Общественность не должна знать, как работает РСА, но раз сейчас информация уже известна, общество должно требовать каких-то ответов.

Страдают ученые, заинтересованные в правде, — медицинские исследователи и так далее. realnoevremya.ru/Максим Платонов

— Очевидно, что эта индустрия не всегда про науку, а про зарабатывание денег. Как понять, что лаборатория, проводящая тест на происхождение, выдаст верную информацию? Есть ли какие-нибудь рекомендации?

— Индустрия по определению генетического происхождения основана на байках и продаже мечты с какими-либо рекомендациями (питаться правильно, заниматься спортом и т.д.). Большинство генетических компаний не используют древние ДНК, которые следовало бы использовать, чтобы проверить истории, которые они рассказывали людям. Они этого не делают, поскольку это могло противоречить их историям или потому что они используют тесты на происхождение для завлечения людей, чтобы те дали свои генетические данные для какой-то другой цели.

Никогда не узнаешь правду. Самая большая ложь — это те очень популярные статьи из серии «Я сделал пять тестов, и вот, что я узнал». Они ничего не говорят тебе о правде, лишь о сходстве алгоритмов таких компаний. Это не правда, схожи инструменты. У общественности нет никакого инструмента, чтобы добраться до правды.

Я рекомендую избегать генетического тестирования, которое продают раскрученные заявления, и найти надежные тесты с заслуживающими доверия учеными за ними, которые не используют РСА.

— Как вы думаете, к каким последствиями приведут результаты вашего исследования?

— К минимальным, в лучшем случае. Одно исследование не может сломать цикл быстрого производства научных работ, хайпа, прорывных публикаций, щедрых грантов и продвижения, что лежит в основе этого сообщества. Причиной того, что у нас есть кризис репликации, является в первую очередь то, что наука сломана.

Я не пессимист, черновой вариант этого исследования был доступен онлайн в течение года. За это время я увидел немногих авторов, заменивших РСА на инструмент, похожий на РСА, что также проблематично. Другие авторы даже не потрудились сделать это.

— Как вы писали о методе датирования на основе ИИ в предыдущем исследовании, может ли здесь ИИ прийти на помощь снова во избежание человеческого фактора во время выполнения теста? Как я поняла, человек все еще играет большую роль в интерпретации результатов и может хотеть попасть на первые полосы газет.

— Проблема скорее в климате в науке, нежели в том или ином инструменте. Но вы думаете в верном направлении. Это как раз то, что мы пытаемся делать сейчас в комбинации с древними ДНК.

Айгуль Зиятдинова

Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube, «Дзене» и Youtube.

ОбществоОбразование

Новости партнеров