Как Data Mining обнаруживает самые здоровые кухни мира

  •  194 /
Spread the love

Жан Брийя-Саварен был французским юристом 19-го века, прославившимся своими работами по гастрономии. В своей самой известной работе он сказал: «Dis-moi ce que tu manges, je te dirai ce que tu es». Или «Скажи мне что ты ешь и я скажу кто ты».

Идея что вы есть то что едите становится все более популярной. Со времен Брийя-Саварен цитата использовалась в качестве названия различных поваренных книг и руководств по здоровью; для некоторых это образ жизни.

Если в словах Бриллата-Саварина есть какая-то правда, это должно иметь важные последствия для общественного здравоохранения. Из опыта мы знаем, что например, индийская кухня сильно отличается от мексиканской, итальянской или китайской. Но мы мало знаем, как количественно оценить эти различия. Действительно, как кухни различаются по всему миру и как они влияют на здоровье, плохо изучены.

Сегодня это можно изменить благодаря работе Сины Саджадманеш в Шарифском технологическом университете в Иране и коллегам, которые собрали огромную базу данных рецептов из сети Интернет, классифицировали данные по типу кухни, а затем проанализировали их отношения друг с другом и к другим факторам, таким как здравоохранение в разных частях света.

Работа впервые показывает, как разные кухни мира связаны одинаковыми ингредиентами, как конкретные ингредиенты помогают классифицировать кухни и как продукты влияют на наше здоровье.

Саджадманеш и коллеги начинают с сбора базы данных из приложения с рекомендациями рецептов Yummly. Они загрузили около 150 000 рецептов из 200 различных кухонь, но ограничивают свою работу 82 кухнями, которые имеют более 100 рецептов. Вместе эти рецепты используют около 3000 ингредиентов.

Затем они определили питательные качества каждого рецепта, рассчитав количество углеводов, белков и жиров, содержащихся в каждом из них.

После, загрузили различные статистические данные на уровне страны, такие как расходы на здравоохранение в процентах от ВВП, распространенность ожирения и величины иммиграции.

Наконец, они использовали различные методы интеллектуального анализа данных и машинного обучения, чтобы получить интересные инсайты.

Эта тепловая карта отражает глобальное разнообразие ингредиентов в кухнях мира, причем наиболее разнообразной кухней является темно-красный. Страны с большим населением иммигрантов, такие как США, Аргентина и Австралия, как правило, имеют наибольшее разнообразие.

Одина из характеристик, которую Саджадманеш и коллеги рассматривают, — это разнообразие ингредиентов в кухнях. Таким образом, они измеряют, сколько разных ингредиентов содержится в блюдах из каждой страны (их глобальное разнообразие) и смотрят, как эти ингредиенты различаются между блюдами (их местное разнообразие).

Оказывается, что страны с большим населением иммигрантов, как правило, имеют наибольшее разнообразие — например, такие как США и Австралия. В этих странах самое большое количество ингредиентов и самый большой разброс между блюдами. «Это происходит главным образом из-за того, что иммигранты приносят с собой свою родную кулинарную культуру, что в свою очередь, делает кухню их страны более богатой», — говорит Саджадманеш.

Другая интересная характеристика — сложность блюд в каждой кухне, другими словами, количество ингредиентов, которые они используют. Например, около половины блюд из юго-восточной азиатской страны Лаос содержат более 15 ингредиентов, тогда как в половине блюд из России их менее семи. Так что кухня в Лаосе значительно сложнее, чем русская кухня.

В целом, по словам Саджадманеша, в странах с большим количеством предлагаемых ингредиентов, как правило, самые сложные блюда. Но есть некоторые исключения. В китайской и индийской кухне относительно мало ингредиентов на выбор, но они используются в относительно сложных блюдах.

Почему это происходит, не ясно. «Возможно, в этих странах были или есть хорошие повара, которые могли бы готовить более сложные продукты из доступных ингредиентов», — предполагают Саджадманеш и коллеги. Другая возможность состоит в том, что кухня из более старых культур в этих странах является более сложной, потому что она дольше развивалась.

Команда также изучает сходства между кухнями, сравнивая ингредиенты, которые они используют. Оказывается, что некоторые ингредиенты имеют тенденцию определять кухни. Например, сыр моцарелла появляется только в итальянской кухне, а молотый пряный гарам масала является визитной карточкой индийской кухни.

Наконец, команда изучает корреляцию между питательными качествами кухонь и здоровьем населения, которое их употребляет. Они показывают, что существует четкая корреляция между ожирением и кухней, в которой преобладают сахар и углеводы. И наоборот, проблемы со здоровьем ниже среди людей, которые едят богатую белком кухню.

Это интересная работа, но с некоторыми оговорками. Возможно, наиболее значительным является ограничение самого набора данных. Важным вопросом является то, насколько точно рецепты от Yummly представляют блюда разных кухонь мира.

Например, карри, предлагаемые в индийских ресторанах в Лондоне, сильно отличаются от карри в Мумбаи или Калькутте. Будут ли оба типа рецепта маркироваться как индийский на Yummly? Трудно понять, как классифицировать индийские кухни под одним названием.

Это поднимает вопрос о том, кто публикует индийские рецепты на Yummly. Это повара с индийского субконтинента или гастрономы из Сохо?

Может быть из рецептов Yummly открывается вид на мировую кухню через особую призму богатых, технически подкованных гурманов из развитого мира. Саджадманеш и коллеги могли бы сделать больше, чтобы проверить наличие потенциального смещения.

Несмотря на это, такой интеллектуальный анализ данных предлагает захватывающее понимание кухонь мира и того, как они различаются. Брилат-Саварин наверняка был бы поражен этим.

Ref: arxiv.org/abs/1610.08469 : Kissing Cuisines: Exploring Worldwide Culinary Habits on the Web
«How Data Mining Reveals the World’s Healthiest Cuisines» MIT

Добавить комментарий