Программное обеспечение Scanpy обрабатывает огромное количество одноклеточных данных

Визуализация моделей экспрессии генов мышиных клеток мозга, полученных с помощью Scanpy.
Spread the love

Ученые разработали программу, которая способна управлять огромными наборами данных. Программное обеспечение под названием Scanpy предназначено для анализа изображения человеческих клеток.

«Речь идет об анализе данных генной экспрессии большого числа отдельных клеток», — объясняет ведущий автор Алекс Вольф из Института вычислительной биологии (ICB) в Гельмгольце-Центруме (Мюнхен). Он разработал Scanpy вместе со своим коллегой Филиппом Ангерером в группе машинного обучения профессора доктора Фабиана Теиса. Помимо своей должности в Гельмгольцецентре, Теис также является профессором математического моделирования биологических систем в Техническом университете Мюнхена. «Новые технические достижения создают на несколько порядков больше данных с большим информационным контентом», — говорит Теис. «Однако отсутствует исторически развитая программная инфраструктура для анализа генной экспрессии. Поэтому необходимы новые аналитические методы».

Гонка за атласом человеческих клеток

Согласно Теис, крупный международный исследовательский проект также может извлечь выгоду из программного обеспечения. Группа международных ученых составляет справочную базу данных под названием «Атлас человеческих клеток», в которой содержатся данные об активности генов всех типов клеток человека. «Для этого проекта и во все большем числе других проектов, в которых объединены базы данных, важно иметь масштабируемое программное обеспечение», — говорит Тейс. Поэтому неудивительно, что Scanpy в настоящее время является кандидатом на помощь в анализе атласа человеческих клеток.

«Scanpy — первое программное обеспечение, которое позволяет всесторонний анализ больших наборов данных генной экспрессии с широким спектром машинного обучения и статистических методов», — объясняет Вольф, описывая достижение. «Программное обеспечение уже используется рядом специалистов по всему миру, особенно в Большом институте Гарвардского университета и Массачусетском технологическом институте».

Технологически приложение является потрясающей разработкой: в то время как программы биостатистики традиционно написаны на языке программирования R, Scanpy основан на языке Python, доминирующем языке в сообществе машинного обучения. Основной особенностью приложения является алгоритмы на основе теории графов. В отличие от обычного подхода, касающегося клеток как точек в системе координат в пространстве экспрессии генов, алгоритмы используют графоподобную систему координат. Вместо того, чтобы характеризовать одну клетку значением выражения для тысяч генов, система просто характеризует клетки, идентифицируя их ближайших соседей — очень похоже на соединения в социальных сетях. Фактически, для идентификации типов клеток Scanpy использует те же алгоритмы, что и Facebook, для идентификации сообществ.

Материал предоставлен Helmholtz Zentrum Muenchen — German Research Centre for Environmental Health

Добавить комментарий