Что такое Data Science? Руководство для начинающих

Когда мир вошел в эпоху больших данных, потребность в их хранении также выросла. Это была основная задача и проблема для предприятий отрасли до 2010 года. Основное внимание было уделено созданию  решений для хранения данных. Теперь, когда Hadoop и другие структуры успешно решили проблему хранения, фокус сместился на обработку этих данных. Data Science — это секретный […]

Приоритезация работы в Data Science

Приоритезация работы в data science

Как data scientist, пытающийся поддержать организацию, вы должны постоянно решать, над какой задачей  должны работать. Вы можете управлять всеми видами задач, такими как: задачи от заинтересованных сторон, например, составить график продаж с течением времени для большой завтрашней встречи, идеи, по вашему мнению, которые имеют долгосрочную перспективу, например, создание модели CLV для прогнозирования клиентов с высоким […]

Отслеживание тематических трендов и знаменитостей с помощью машинного обучения

Мы изучали машинное обучение в Condé Nast, в течение некоторого времени — и мы очень заинтересованы в том, чтобы найти способы улучшить опыт как нашей аудитории, так и наших контент-создателей. Для нашего следующего исследования мы решили взглянуть на то, как мы можем применить наш опыт, чтобы помочь писателям и редакторам Vanity Fair лучше писать истории, […]

Тренды фейковых новостей? Инструмент показывает, какие истории становятся вирусными и виновны ли в этом боты

Поиск в Хоакси отслеживает распространение новостей, в которых упоминается Сирийская гражданская оборона

Hoaxy, Fakey и Botometer являются тремя мощными инструментами для изучения и противодействия онлайн-дезинформации и манипуляциям. Исследователи из Обсерватории Университета штата Индиана в социальных сетях начали модернизацию инструментов, играющих важную роль в противодействии распространению дезинформации в Интернете. Усовершенствования Hoaxy (hoaxy.iuni.iu.edu) и Botometer (botometer.iuni.iu.edu/) поддерживаются Knight Prototype Fund, совместноми предприятими Фонда Джона С. и Джеймса Найта, Фонд Риты […]

Байесовская линейная регрессия в Python: использование машинного обучения для прогнозирования оценок учащихся

Даже после работы с теорией байесовского линейного моделирования в течение пары недель и написания статьи в блоге, я не мог сказать что полностью понял эту концепцию. Основываясь на практике и опыте, я решил сделать проект по data science с использованием модели байесовской линейной регрессии. Этот пост является первым из двух, описывающих проект. Я хотел показать […]

Программное обеспечение Scanpy обрабатывает огромное количество одноклеточных данных

Визуализация моделей экспрессии генов мышиных клеток мозга, полученных с помощью Scanpy.

Ученые разработали программу, которая способна управлять огромными наборами данных. Программное обеспечение под названием Scanpy предназначено для анализа изображения человеческих клеток. «Речь идет об анализе данных генной экспрессии большого числа отдельных клеток», — объясняет ведущий автор Алекс Вольф из Института вычислительной биологии (ICB) в Гельмгольце-Центруме (Мюнхен). Он разработал Scanpy вместе со своим коллегой Филиппом Ангерером в […]