Отслеживание тематических трендов и знаменитостей с помощью машинного обучения

Spread the love

Мы изучали машинное обучение в Condé Nast, в течение некоторого времени — и мы очень заинтересованы в том, чтобы найти способы улучшить опыт как нашей аудитории, так и наших контент-создателей. Для нашего следующего исследования мы решили взглянуть на то, как мы можем применить наш опыт, чтобы помочь писателям и редакторам Vanity Fair лучше писать истории, которые имеют широкий и значимый эффект.
Vanity Fair дебютировала в 1913 году и сосредоточилась на мужской моде. С тех пор журнал расширил охват до широкого круга тем. Это разнообразие создает уникальный опыт чтения, но он задает вопрос: как редакторы выбирают контент?

Возможно, это может быть более простым ответом на вопрос, может ли организация писать о текущих мировых событиях или локальных изменениях. Однако, когда требования к публикации включают в себя отдельный контент, оригинальный редакторский голос и тщательно продуманные детали, важно взвешивать все с умом.

Первичные источники трафика на веб-сайте Vanity Fair включают direct — трафик, органика и социальные сети. Академик Университета Дьюка Марко Толедо Бастос рассмотрел выпуск новостных групп в течение двух недель в октябре 2012 года [1]. Марко определил, сколько контента было выпущено под 19 заголовками разделов (например, Мировые новости, Спорт, Мнения). Затем он проанализировал это распределение по сравнению с тем которое было в социальных сетях. Его результаты показывают значительные различия в темах, которые подчеркиваются редакторами новостей и потребностями пользователей социальных сетей.

Это интересное замечание заставило нас задаться вопросом: как тематика и знаменитости, которые пользователи находят из поиска и хотят читать, отличаются от ожиданий редакторов? Внешний трафик поиска стал второй по величине частью трафика для Vanity Fair. Итак, мы решили исследовать, являются ли люди и темы, описанные в статье, прогнозирующими для своего поискового трафика. Если это так, то мы также можем определить, какие темы или люди имеют тенденцию, и, наконец, рекомендовать их редакторам.

Как ответить на этот вопрос?

 

Иллюстрация процесса поиска, кликов, показов и скорости нажатия
Рис. 1 Иллюстрация процесса поиска, кликов, показов и скорости нажатия

Понимание того, как клики объединяются с аудиториями

Второй по величине источник трафика Vanity Fair — это Google Поиск. На рисунке 1 показана концепция взаимосвязи между кликами, показом и скоростью перехода по клику. Мы можем видеть, что три из четырех потенциальных пользователей заинтересованы в политике, и они ищут «политику». Статья из Vanity Fair появилась в результатах поиска три раза (т.е. три впечатления для этой статьи). Двое из этих пользователей нажали на статью, но остальные нашли другую статью более интересной.

Совокупные данные, которые были бы полезны для прогнозирования поискового трафика

На основе описанного выше процесса мы обнаружили пару переменных, которые могут быть полезны при прогнозировании кликов из внешнего источника поиска: темы и ключевые слова.

Темы. Как показано на рисунке 1, некоторые темы или знаменитости стали более популярными сейчас (политика отличается тенденциями по сравнению с историями о машинах, водителей), и больше людей ищут ее (3 против 1) по сравнению с другими, что, несомненно, повлияет на количество кликов для статьи.

Ключевые слова. Там могут быть отношения между трендами запросов, включенных в заголовок статьи, и наблюдаемого поискового трафика (кликов).

Есть, конечно, другие переменные, которые могут влиять на поисковый трафик статей. Например, раннее ранжирование статей во внешних результатах поиска. Но сейчас мы рассмотрим только перечисленные выше.

Построение прогностической модели

Мы собрали 15-дневную стоимость кликов (начиная с даты публикации статьи), для статей Vanity Fair. Мы также использовали темы каждой статьи из HAL, нашего внутреннего продукта Content Understanding. Каждая статья связана с 300-мерным вектором, представляющим темы, описанные в этой статье, и если статья не посвящена теме, то эта часть будет равна 0. Это послужило нашим модулем «Topics Feature Data».
Второй модуль данных, известный как модуль «Keywords Feature Data», ассоциировал каждую статью с 50-мерным вектором.

Мы использовали отдельный модуль данных для построения прогностических моделей. Мы также построили прогностическую модель, используя оба модуля данных, как показано на рисунке 2. Для выбора полезных фич для прогнозирования поискового трафика использовался выбор одномерной ассоциации, позволяющий удалить фичи, не соответствующие задаче. Логистическая регрессия затем использовалась для прогнозирования, если клики статьи будут превышать средний трафик поиска Vanity Fair с использованием выбранных фич. Этот процесс называется классификацией.

Процесс построения прогностической модели
Процесс построения прогностической модели

На рисунке: модель объединяет информацию из функций Data Module и модуля данных Data Features. Высота представляет размерность изделий; ширина прямоугольника представляет собой размеры модулей различных функций (300 для функционального модуля тем и 50 для модуля данных ключевых слов).

Выводы

Мы использовали Area Under ROC Curve (AUC) как метрику для измерения прогнозирующей производительности модели. AUC — это число между [0,1], более высокое значение указывает на лучшую прогнозирующую производительность. Модель работает так же хорошо, как случайное предположение, если AUC равно 0,5.

Используя модуль Topics Features Data только для статей Vanity Fair, мы достигли 0,68 AUC в независимых наборах данных. Комбинирование фич тем и модуля Keywords Features Data данных не улучшили прогнозирующую производительность (0,7 AUC). Исходя из этих результатов, мы показываем, что на самом деле имеется определенная информация по темам и ключевым словам статьи, которые расскажут нам, будет ли статья превышать средний трафик или нет.
Вернемся к первому вопросу, какие темы заставляют статью Vanity Fair получать наибольший трафик через поиск? За исследуемый период музыка и кино были ведущими темами, в то время как темы, связанные с технологией и бизнесом, были наименее популярными.

Список самых популярных тем и наименее популярных тем во время эксперимента
Список самых популярных тем и наименее популярных тем во время эксперимента

Как это интерпретировать?

Мы использовали точные соответствия между запросами и ключевыми словами, извлеченными нашими внутренними системами аналитики. В будущем мы можем попробовать еще один метод семантического сопоставления, например, службы семантического сходства UMBC.
Мы использовали запросы, которые управляют большинством трафика на Vanity Fair, чтобы соответствовать ключевым словам, извлеченным из статей. Было бы интересно увидеть результат, если бы мы использовали трендовые запросы из исторических данных Google (тренд в глобальном контенте, а не просто тренд в нашем контенте): если есть совпадение между трендами запросов Google и нашими ключевыми словами контента, наша статья получает больше поискового трафика? Это, безусловно, поможет нам определить, какие типы ключевых слов, которые глобально расходятся, не приведут нас к большому поисковому трафику, и в то же время, какие типы ключевых слов, которые будут расти глобально, получат много поискового трафика.

Наконец, текущая модель построена на данных, собранных за определенный период времени, но трендовые темы и ключевые слова всегда меняются со временем. Было бы интересно увидеть изменение трендовых тем и ключевых слов для нашего контента во времени.

[1].Marco Toledo Bastos and Gabriela Zago. News Articles: Readership and News Sections in Europe and the Americas. SAGE Open July-September 2013: 1–18 © The Author(s) 2013 DOI: 10.1177/2158244013502496 sgo.sagepub.com

Добавить комментарий