HealthyHomes: Предсказание качества воздуха для принятия решения о покупке недвижимости

В Лос-Анджелесе около 1 из 10 случаев астмы в детстве связаны с загрязнением окружающей среды. Аналогичным образом, недавние исследования из Окленда, Калифорния продемонстрировали до 40% увеличение риска сердечных приступов среди пожилых людей всего в нескольких кварталах от границы города. Знание этих местных рисков имеет значение, так как концентрации загрязняющих веществ в воздухе могут варьироваться в восемь раз в разных кварталах, а долгосрочные воздействия загрязняющих веществ, таких как диоксид азота и черного углерода, являются основным фактором ряда хронических проблем со здоровьем. Существует явная необходимость в большей прозрачности информации о рисках, чтобы люди могли принимать обоснованные решения по выбору жилья.

Сэм Чемберлен в настоящее время является научным сотрудником по исследованиям в Сан-Франциско. В Корнельском университете и постдокторской работе в Калифорнийском университете в Беркли он изучил, как управленческие решения влияют на выбросы парниковых газов в сельском хозяйстве и восстановленные водно-болотные угодья.

Будучи научным сотрудником в программе Insight Health Data Science program, автор решил эту проблему, создав веб-приложение HealthyHomes для прогнозирования воздействия загрязняющих веществ с адресной детализацией. Приложение помогает ответить на вопрос, насколько близко находятся автомагистрали или промышленность.

Вы думаете, что живете слишком близко к шоссе?

Это веб-приложение позволяет пользователю вводить свой адрес в городах восточного побережья (в настоящее время Окленд, Беркли, Олбани, Эмеривилль и Эль-Серрито) и дает немедленное прогнозирование риска их воздействия по отношению к среднему значению в регионе. Пользователи также могут просматривать оценки воздействия через интерфейс на основе карт и создавать предложения для соседних районов в рамках своего жилищного бюджета, где воздействие загрязняющих веществ снижается. Этот проект состоит из ряда этапов которые приведены ниже.

Конвейер данных и машинного обучения

Общий конвейер данных для построения HealthyHomes. Признаки были разработаны путем сопоставления данных о загрязнителях Google Street View с использованием OpenStreetMaps, переписи США, городского зонирования и метеорологических данных. Затем произвольные модели деревьев решений были обучены прогнозированию концентрации газа во всем Восточном заливе. Наконец, рекомендации для более здоровых районов в вашем ценовом диапазоне предоставляются парсингом сайта Zillow.

1. Данные

Данные, как правило, недоступны для проведения оценок на уровне адресов, поскольку общий трафик и отраслевые загрязняющие вещества могут измеряться только в нескольких местах в городе. Хотя эти стационарные измерения важны, они не позволяют широкой общественности понять их риски воздействия на уровне соседства или поэтапно.

Итак, как можно сделать эти гиперлокальные прогнозы? Здесь используется уникальный набор данных, собранный Фондом защиты окружающей среды и Google Street View, где отображаются загрязняющие вещества с высоким разрешением во всех больших частях Окленда с помощью Google Street View.

Команда ученых из Техасского университета в Остине обработала измерения и вывела средние значения концентрации загрязняющих веществ на каждые 30 метров для всего Запада, центра города и частей Восточного Окленда. Эти мероприятия по составлению карт дают уникальное представление об изменчивости концентраций загрязняющих веществ на поэтапной основе и обеспечивают средство для моделирования во всей восточной бухте. Однако эти данные предоставляют только моментальные снимки в определенных местах Окленда, поэтому необходимо было создавать обобщенную модель и предлагать прогнозы тем, кто живет в районах за пределами зоны исследования.

Пример покрытия Google Street View в Окленде.

2. Разработка функций

Чтобы прогнозировать состояния по уникальным адресам, нужно было создать обобщаемый набор функций для описания концентраций загрязняющих веществ. Это представляло собой проблему, поскольку данные Google Street View содержали информацию о местоположении (lat, long) и концентрации газа. Чтобы преодолеть эту проблему, был собран разнообразный набор данных, в том числе из OpenStreetMaps, городского зонирования и метеорологические данные, чтобы спроектировать набор данных, на котором можно бы было обучить модель машинного обучения. Создано всего 20 признаков для прогнозирования концентрации двуокиси азота и черного углерода. Эти признаки были разделены на три основные категории:

Признаки на основе расстояния: например, расстояние до ближайшей автомагистрали, перекрестка или промышленная зона.
Особенности переписи и зонирования: такие, как плотность населения и тип зонирования для региона, где проводилось измерение.
Особенности погоды: например, средняя годовая скорость ветра на 1 км²

3. Разработка модели

Вначале использовались несколько линейных регрессионных и обобщенных аддитивных моделей со сплайнами, но эти модели не смогли зафиксировать важные взаимодействия внутри данных. Затем было принято решение использовать модели деревьев принятия решений, которые могли обрабатывать неравномерные данные, выявлять важные взаимодействия.

Оба метода random forest и градиентного бустинга дали лучшую оценку прогноза концентрации загрязняющих веществ, достигнув R² 0,95 и 0,84 на третьем испытательном наборе (~ 6000 образцов) для диоксида азота и черного углерода соответственно. Обе модели имели почти идентичную точность тестового набора (RMSE) после настройки, поэтому было решено использовать random forest алгоритм. Это связано с тем, что random forest менее подвержен переобучению, а текущая модель предназначена для обобщения. Важнейшими характеристиками модели были расстояние до ближайшего шоссе, расстояние до ближайшей промышленной зоны, средняя скорость ветра, независимо от того, произошло ли измерение на жилой улице и плотность местного населения. Все эти функции тесно связаны с интенсивностью автомобильного движения и промышленной деятельности.

Теперь, когда была создана модель машинного обучения, можно дать оценку воздействия загрязняющих веществ на любой адрес, запрошенный в Восточном заливе. Это делается на HealthyHomes, сначала извлекая точное местоположение для адреса с помощью API GoogleMaps, генерируется все 20 параметров для местоположения, как описано выше, а затем применяются эти данные к обученной модели random forest. Карта в веб-приложении создается путем создания признаков для точечной сетки, равномерно распределенной по Восточному заливу с разрешением в 50 метров.

Интерфейс HealthyHomes визуализирует качество воздуха. HealthyHomes обеспечивает оценку качества воздуха по указанным адресам и карте тепла. Области, которые имеют красный цвет, ухудшают качество воздуха.

4. Предложения рядом стоящих зданий

На последнем этапе было создано альтернативное предложение по окрестностям, путем парсинга всех текущих данных аренды Zillow для Окленда, используя BeautifulSoup, чтобы оценить среднюю арендную плату в каждом районе города. Затем для определения среднего значения загрязняющих веществ для каждого района использовалась тепловая карта прогнозирования загрязнений. Там можно найти близлежащие районы с аналогичной арендной платой и более низким уровнем загрязняющих веществ.

Заключение и следующие этапы

Точно предсказав гиперлокальные концентрации загрязнения воздуха, HealthyHomes выявляет важную связанную со здоровьем информацию, которая ранее была незаметна. Этот продукт можно использовать для обучения и предоставления возможности людям принимать более обоснованные решения о месте жилья.

Текущая модель обучается на Окленде и обобщается в других городах Восточного залива, где характеристики городов относительно схожи. Неизвестно, насколько хорошо эта модель будет обобщать районы за пределами Восточного залива, такие как Сан-Франциско, где плотность населения, структура трафика и структурные свойства очень разные. Прогнозы модели могут быть легко расширены на другие области, поскольку основные источники данных для создания признаков широко доступны, но проверка остается самым большим препятствием. Получение более проверенных данных с высокой детализацией в новых городах было бы первым шагом к более широкому обобщению.

В настоящее время Google со своим партнером Aclima проехала более 100 000 миль по всему Сан-Франциско, Лос-Анджелесу и Центральной долине, чтобы измерить качество воздуха, а в Хьюстоне и Лондоне идут дальнейшие усилия по картированию для Фонда охраны окружающей среды. К сожалению, эти данные в настоящее время недоступны для общественности, но когда они будут доступны, их можно будет использовать для расширения прогнозов в новых регионах.

Код

Код для этого проекта можно найти на GitHub.

Автор текста: Sam Chamberlain

Ссылки:
Apte et al. 2017. High-Resolution Air Pollution Mapping with Google Street View Cars: Exploiting Big Data. Environmental Science and Technology

Alexeef et al. 2018. High-resolution mapping of traffic related air pollution with Google street view cars and incidence of cardiovascular events within neighborhoods in Oakland, CA. Environmental Health

Spread the love

Оставьте первый комментарий

Оставить комментарий