10.2. Пример: предсказание
криминальной активности
Открытая сводка от полицейского управления Сан-
Франциско предоставляет информацию о месте, времени
и тяжести преступлений, совершенных в городе с 2014
по 2016 год. Поскольку анализ показывает, что в жаркие
дни уровень преступности обычно растет, мы также взя-
ли метеорологические данные по дневной температуре
и осадкам за тот же период (рис. 1).
Рис. 1. Тепловая карта Сан-Франциско, которая показывает
частоту преступлений: очень низкую (серым), низкую (светлым),
среднюю (темно-серым) и высокую (черным)
140
Глава 10
.
Случайные леса
Мы предположили, что с учетом кадровых и ресурсных
возможностей полиция сможет организовать дополни-
тельные патрули в тех местах, где ожидаются преступле-
ния. Поэтому мы запрограммировали прогностическую
модель находить только 30 % территорий с наиболее
высокой вероятностью совершения преступлений с при-
менением насилия.
Предварительный анализ показал, что преступления со-
вершались в основном в северо-восточной части города
(выделена прямоугольником). Для дальнейшего анализа
мы разделили эту зону на небольшие участки размером
260
× 220 м.
Для предсказания того, где и когда могут случиться пре-
ступления, были созданы 1000 возможных деревьев ре-
шений, которые учитывали данные по преступности и по-
годе. После этого мы построили на их основе случайный
лес. Мы использовали данные за 2014 и 2015 годы для
обучения прогностических моделей, после чего проверя-
ли их точность на данных 2016 года (с января по август).
Так насколько хорошо мы можем предвидеть преступле-
ния?
Случайный лес успешно предсказал 72 % (почти три
четверти) всех преступлений с применением насилия.
Это доказывает превосходство точности его прогноза
по сравнению со средней точностью составляющих его
деревьев решений, которая равна 67 % (рис. 2).
Поскольку лучшую точность показали только 12 из
1000 отдельных деревьев, мы можем располагать 99 %-ной
10.2. Пример: предсказание криминальной активности
141
уверенностью, что случайный лес дает нам более высокую
точность, чем отдельно взятое дерево.
0,72
Число деревьев
Точность прогноза
0,55
0,60
0,65
0,70
0,75
0,80
0,85
Рис. 2. Гистограмма прогностической точности 1000 деревьев
решений (в среднем 67 %) по сравнению с точностью случайного
леса, который получен на их основе (72 %)
На рис. 3 показаны прогнозы случайного леса на четы-
ре дня подряд. Основываясь на наших предсказаниях,
полиции следует уделить больше внимания черным
участкам и меньше — светлым. Хотя неудивительно, что
требуется больше патрулей на территориях, в которых
исторически совершается больше преступлений, но
модель идет дальше и показывает вероятность совер-
шения преступлений в не черных зонах. Например, для
четвертого дня (нижняя правая теплокарта) было верно
предсказано преступление в серой зоне, несмотря на от-
сутствие там криминальной активности за предыдущие
три дня.
Do'stlaringiz bilan baham: |