Обзор
По мере того как я приближаюсь к концу моего пребывания в учебном лагере по информатике, я понял, что мне нужно увидеть некоторые реальные примеры того, что я потенциально мог бы делать в будущем. Самый простой способ сделать это — посмотреть на реальные примеры больших проектов, которые были сделаны в прошлом.
Я хотел найти исследовательскую работу за последние несколько лет, поскольку компьютерные науки постоянно развиваются, так что взятие вещей из недавнего прошлого будет иметь для меня больший вес. Работа, которую я выбрал, была написана 2 декабря 2021 года, так что прошло меньше года с момента ее выхода, и называлась она «Как мы определили, что программное обеспечение для предсказания преступлений непропорционально нацелено на районы с низким доходом, чернокожих и латиноамериканцев». Название мгновенно зацепило меня, потому что это вещи, которые, как я всегда считал, происходят, но мне было бы трудно найти определенные доказательства, чтобы представить их другим людям. Окончательный набор данных, который они использовали для анализа, содержал более 5,9 миллиона предсказаний.
Теперь, как человек, обладающий приличными знаниями в этой области, я смог полностью понять весь код и методы, но как бы я смог объяснить это кому-то, кто не так подкован в технике?
Резюме
Начнем с того, на что именно смотрят авторы этой статьи, чтобы сделать свои утверждения, и как мы можем знать, что они верны? Ну, по словам автора, они получили данные прогнозирования преступлений PredPol, PredPol был одним из первых инструментов анализа данных, используемых полицией, и в настоящее время является самым популярным, эти данные никогда ранее не публиковались PredPol. Один из их партнеров «Gizmodo» обнаружил их в открытом доступе в Интернете (сейчас портал защищен) и загрузил более семи миллионов прогнозов преступлений PredPol на период с 2018 по 2021 год. После защиты данных и их категоризации они смогли найти ряд факторов, которые происходят во время большинства взаимодействий с полицией, таких как количество арестов, количество случаев применения силы, количество патрулей полиции и многое другое, а затем сравнили эти показатели между различными этническими группами и уровнями доходов.
Это одна из их окончательных моделей, которая ясно показывает, что в нижней части спектра кварталов, где PredPol был мишенью, подавляющее большинство составляли белые люди, в то время как в кварталах с наибольшим количеством мишеней от PredPol наблюдается значительная диспропорция в отношении чернокожих и латиноамериканских групп. Это ясно показывает на реальных данных то, что многие люди в Америке знали уже давно.
Создатели этой статьи смогли показать, что не только чернокожие и латиноамериканцы были группой, наиболее подверженной нападениям в кварталах, которые подвергались сильным нападениям, но они также показали, что доля людей, которые были чернокожими или латиноамериканцами, резко возросла в соответствии с кварталами, которые были наиболее подвержены нападениям.
Другая модель, которую они в итоге использовали для дальнейшего подтверждения своей точки зрения о том, что они смогли найти в своих данных, заключалась в том, что они смогли найти данные о количестве арестов, отсортированные по этнической принадлежности. В большинстве округов, входящих в набор данных, можно увидеть, что чернокожие люди чрезвычайно перепредставлены в количестве арестов, они в два раза чаще подвергаются арестам в определенных районах США, когда офицеры прибывают в эти прогнозируемые районы, которые алгоритм предписывает им патрулировать.
Как вы можете видеть, не только чернокожие и латиноамериканские группы стали мишенью этой системы, но и районы с очень низким средним доходом. Вы можете увидеть очень резкую разницу между наиболее и наименее целевыми кварталами домохозяйств. домохозяйства, которые отличаются высоким уровнем благосостояния, часто получают одинаковое количество патрулей независимо от каких-либо обстоятельств, но кварталы с непропорционально большим количеством бедных жителей видят такой резкий рост целевого патрулирования со стороны PredPol.
Чтобы еще больше подтвердить этот тезис, они изучили данные и смогли найти данные о государственном жилье и о том, как это влияет на прогнозы, направленные на их районы. Некоторые результаты этой части исследования были следующими:
-
В Джексонвилле 63% государственного жилья было расположено в кварталах, на которые PredPol нацелился больше всего.
-
В Элгине 58% государственного жилья было расположено в квартальных группах, на которые PredPol нацелился в наибольшей степени.
-
В Портедже, Ливерморе, Калифорния, Кокоа, Флорида, Саут Джордан, Юта, Глостер, Нью-Джерси, и Пискатауэй, все до единого объекты государственного жилья были расположены в квартальных группах, которые больше всего подвергались воздействию PredPol.
Как вы можете видеть, районы, в которых проживают люди, не имеющие средств на покупку собственной недвижимости, были сильно перепредставлены в прогнозах PredPol, поэтому они были объектом пристального внимания, точно так же, как люди с черным цветом кожи или латиноамериканцы являются объектом пристального внимания этой системы.
Заключительные мысли
Очевидно, что многое из того, о чем говорится в этой статье, воспринимается как здравый смысл для определенных групп, но это только потому, что эти группы, возможно, имели непосредственный опыт общения с полицией. Возможность взять данные из PredPol, которое является агентством по сбору данных, показывает, насколько данные раскрывают истину, поскольку в конечном итоге произошла утечка, мы можем указать на данные реальных компаний, чтобы показать, что многие люди уже имели предвзятое мнение о полицейских.
Эта статья была действительно информативной для меня, потому что я всегда был заинтересован в выяснении очень широких проблем в нашей стране сегодня, и обучение тому, как брать данные и ясно представлять их другим, будет огромным толчком в том, что я хочу делать в будущем для работы в правительстве.
Если бы я попытался объяснить эту статью простыми словами либо бизнесмену, заинтересованному в человеческих ресурсах, либо даже политику, который, как и я, хочет видеть изменения в нашей стране, то эта статья стала бы выдающейся в плане указания на факты при принятии решений о политике, направленной на помощь другим.
В заключение я бы рекомендовал людям прочитать статью целиком, так как она слишком объемна, чтобы объяснить ее в коротком блоге, но я надеюсь, что мне удалось хорошо представить хотя бы часть ее положений.
Статья, на которую я ссылался: https://themarkup.org/show-your-work/2021/12/02/how-we-determined-crime-prediction-software-disproportionately-targeted-low-income-black-and-latino-neighborhoods#2021-predpol-methodology_race-percentile