Искусственный интеллект лучше людей предсказывает рецидивизм

Группа ученых из Стэнфордского и Калифорнийского университетов в исследовании под названием «Пределы человеческого предсказания рецидивов», опубликованном в журнале Science Advances, пришла к выводу, что при определенных обстоятельствах искусственный интеллект может лучше людей предсказать повторное совершение преступления. Адаптированный перевод статьи публикуется в сокращении.

Введение

Алгоритмы и прогнозная аналитика позволяют принимать решения практически во всех секторах государственной политики, включая уголовное правосудие. Когда судьи, исправительные учреждения и коллегии по условно-досрочному освобождению принимают решения, касающиеся лишения свободы, надзора и освобождения, они обычно обращаются к инструментам оценки риска (RAI), которые представляют собой контрольные списки, где обобщаются «факторы риска» для оценки вероятности повторного совершения преступления человеком в будущем. Основное обоснование заключается в вере в то, что RAI превосходят невооруженное человеческое суждение в прогнозировании рецидивизма.

Однако обоснованность данного утверждения была поставлена под сомнение. В недавнем крупном исследовании Джулия Дрессел и Хани Фарид обнаружили, что широко используемый RAI под названием COMPAS («Профилирование исправительного правонарушения для альтернативных санкций») «не более точен… чем прогнозы, сделанные людьми, у которых мало опыта в области уголовного правосудия или же таковой отсутствует».

Для своего исследования авторы привлекли 400 онлайн-участников через платформу Amazon’s Mechanical Turk. Они показали каждому участнику по 50 кратких описаний реальных обвиняемых, взятых из общедоступного набора данных COMPAS, и попросили указать, предполагают ли они, что каждый из обвиняемых совершит повторное преступление в течение 2 лет. В среднем по этим ответам общая точность прогнозов участников составила 62%, что сопоставимо с точностью алгоритмических прогнозов COMPAS (65%). Помимо эффективности, некоторые также подвергли сомнению справедливость RAI.

Однако более внимательный взгляд на исследование Дрессел и Фарида показывает, что прогноз непрофессионалов не может заменить экспертную оценку, особенно оценку людей, не имеющих посторонней помощи, особенно оценку судьей, сотрудников службы пробации и других профессионалов, то есть ту методику, которая применяется при прогнозировании повторного совершения преступлений в реальном мире. В частности, замысел исследования сосредоточил внимание людей на наиболее прогнозирующих факторах и способствовал обучению в ходе эксперимента, возможно, в результате повысив уровень точности. В новой серии экспериментов мы проверили влияние трех условий на относительную точность человеческого суждения и RAI при прогнозировании повторного правонарушения. В совокупности эти эксперименты были разработаны для освещения ситуаций, в которых люди могут прогнозировать рецидивизм так же точно, как и алгоритмы, а также чтобы выявить параметры, в которых алгоритмы могут давать более точные оценки, чем люди.

Во-первых, мы проверили эффективность предоставления «упорядоченной» и «обогащенной» информации для прогнозирования.

Дрессел и Фарид предоставили людям карточки, в которых перечислялись пять факторов риска рецидивизма для каждого случая в повествовательной форме: пол, возраст, текущее обвинение и количество предыдущих преступлений, совершенных во взрослом и несовершеннолетнем возрасте. Этот формат имитирует структурированные контрольные списки выборочных факторов риска, которые, как было показано, повышают способность профессионалов делать точные прогнозы. Однако информация, доступная в условиях правосудия, гораздо менее ограничена. Отчеты о расследовании, заявления адвоката и жертвы, а также поведение отдельных лиц добавляют сложную, непоследовательную, не имеющую отношения к риску и потенциально искажающую информацию. Мы предположили, что статистические инструменты прогнозируют лучше, чем люди, когда оба получают более сложную или иным образом «зашумленную» информацию о рисках.

Мы проверили эту гипотезу путем манипулирования предоставлением упрощенной информации (пять факторов риска Дрессел и Фарида) или обогащенной информации (эти пять факторов плюс еще 10). Мы сделали так, чтобы вся информация была последовательной и соответствовала риску. Учитывая, что в наборе данных COMPAS отсутствовали эти дополнительные факторы риска, мы использовали аналогичные наборы данных LSI-R (усовершенствованный инструмент оценки риска). LSI-R также включает в себя информацию о криминальном прошлом преступника, статусе его занятости и употреблении психоактивных веществ. Для каждого из 10 факторов риска, оцениваемых LSI-R, мы написали фразы, описывающие каждый балл по этому фактору (например, «имеет серьезные проблемы с алкоголем, которые мешают работе» соответствует 3 баллам по шкале злоупотребления психоактивными веществами). Эти фразы были объединены для создания более информативных карточек, которые, в отличие от упрощенных карточек, использованных Дрессел и Фаридом, содержали в себе расширенную информацию о многих аспектах жизни реальных людей.

Во-вторых, мы протестировали влияние предоставления людям обратной связи о точности их прогнозов в ходе серии испытаний.

В каждом из 50 раундов исследования Дрессел и Фарида участники делали прогноз, а затем были проинформированы о том, был ли их прогноз (и их совокупная точность) верным, после чего переходили к следующей карточке. Другими словами, прогнозирование событий происходило последовательно, с немедленной обратной связью по точности. Это создало «добрую среду», которая показала, что она идеально подходит для людей, чтобы интуитивно изучать вероятности конкретных результатов, даже когда правила непрозрачны. «Добрая среда» обучения может способствовать точности, в отличие от «злой». В отсутствие такой обратной связи мы предположили, что алгоритмы предсказывают лучше, чем люди. Мы проверили эту гипотезу, манипулируя тем, получили ли люди обратную связь об их точности, используя набор данных COMPAS и наши наборы данных LSI-R.

В-третьих, мы проверили влияние базовых показателей общей вероятности повторного совершения правонарушения на относительную точность прогнозирования алгоритмов и людей.

Базовые показатели существенно различаются в зависимости от контекста. Например, в данных COMPAS, используемых Дрессел и Фаридом, базовые показатели повторных арестов для любого вида преступлений составляют 48%, тогда как базовые показатели повторных арестов для насильственных преступлений в том же наборе данных составляют всего 11%. Даже когда людям явно говорят о базовых показателях, им часто не удается обновить свои прежние убеждения, это явление называется «пренебрежение базовыми показателями». Статистические алгоритмы, напротив, предназначены для точного и последовательного включения этой информации. По этой причине мы ожидаем, что точность человеческих прогнозов будет особенно чувствительной к базовым показателям.

Исследование

После Дрессел и Фарида мы набрали участников на платформе Amazon’s Mechanical Turk, чтобы оценить вероятность того, что обвиняемые будут повторно арестованы в течение 2 лет после освобождения, на основе кратких описаний индивидов. В оригинальном исследовании участников просто просили указать бинарные «да/нет» в прогнозах рецидивизма.

Мы изменили эту схему, попросив дать прогноз по 30-балльной шкале вероятности. Для этого мы сначала попросили участников выбрать один из шести сегментов риска, от «почти наверняка НЕ арестован (от 1 до 16%)» до «почти наверняка арестован (от 84 до 99%)». На основании этого первоначального ответа мы затем попросили отдельных лиц выбрать одну из пяти подкатегорий, чтобы получить более конкретные оценки вероятности. Например, в сегменте наименьшего риска подкатегории составляли 2, 5, 8, 12 и 15%.

Участники не могли точно указать вероятность 50% повторного подсчета, поэтому сообщенные вероятности можно было однозначно преобразовать в двоичные прогнозы, основанные на 50-процентном пороге вероятности.

Мы расширили оригинальное исследование тремя дополнительными способами. Во-первых, в то время как Дрессел и Фарид сосредоточились на одном наборе данных, мы повторили наши эксперименты на четырех наборах:

  1. Сбалансированные базовые показатели COMPAS для любого рецидивизма в округе Броуард, Флорида (набор данных, используемый Дрессел и Фаридом);
  2. Сравнительные оценки насильственных рецидивов COMPAS, также в округе Броуард;
  3. 3Оценки сбалансированного базового показателя рецидивизма LSI-R в среднем западном штате;
  4. LSI-R оценки рецидивизма с низким базовым показателем в юго-западном штате.

В первых трех наборах данных «рецидивизм» означает повторный арест; в четвертом — повторное заключение в тюрьму.

Во-вторых, мы рассмотрели влияние немедленной обратной связи на прогнозы человека. В первоначальном исследовании участникам после каждого прогноза сообщалось, действительно ли обвиняемый был повторно арестован. Вместо этого мы случайным образом назначаем участников либо получающих, либо не получающих отзывы. Наконец, мы исследовали влияние расширенной информации на точность прогнозирования. В двух наборах данных COMPAS, включая набор данных, использованный в первоначальном исследовании, относительно мало доступной информации о людях, и то, что доступно (например, возраст, пол и количество прошлых арестов), тесно связано с риском рецидивизма. Карточки, основанные на наборах данных COMPAS, обязательно упорядочены (то есть ограничены пятью доступными факторами риска). Однако в двух наборах данных LSI-R мы имеем более полную информацию о каждом человеке, включая 10 дополнительных факторов риска, связанных, например, с образованием, занятостью и употреблением психоактивных веществ.

Таким образом, мы провели четыре отдельных эксперимента, по одному для каждого из четырех наборов данных, которые мы рассмотрели. В двух экспериментах с COMPAS участникам было случайным образом назначено получать или не получать обратную связь. В двух экспериментах с LSI-R участники были случайным образом распределены по одному из двух условий обратной связи и независимо назначены для просмотра упорядоченных или расширенных карточек в схеме 2 на 2.

Во всех случаях участники предоставили 50 прогнозов и получили финансовую компенсацию за точность в соответствии с первоначальным исследованием. В совокупности во всех экспериментах мы собрали 32 250 ответов от 645 участников.

Обсуждение

Оценка риска является «движущей силой» федерального законопроекта о реформе пенитенциарной системы США, недавно ставшего законом, и компонентом усилий по сокращению числа заключенных без ущерба для общественной безопасности. Когда риск является юридически значимым фактором, судьям, исправительным учреждениям и другим специалистам было рекомендовано учитывать RAI при принятии решений. Предполагается, что RAI прогнозируют рецидивы лучше, чем невооруженное человеческое суждение.

Результаты исследований Дрессел и Фарида ставят под сомнение это предположение в условиях, когда информация о рисках ограничена, во многих исследованиях обеспечивается обратная связь по точности, а базовые показатели рецидивизма сбалансированы. В настоящей серии экспериментов мы исследовали надежность этого результата, манипулируя этими тремя признаками. Мы повторили выводы Дрессел и Фарида о том, что люди работают так же хорошо, как алгоритмы, в условиях, в которых они исследуют. Однако мы также обнаружили, что алгоритмы, как правило, превосходят людей в условиях, когда лица, принимающие решения, имеют доступ к обширной информации и не получают немедленной обратной связи, а базовые показатели далеко не сбалансированы, что характерно для многих реальных сценариев.

В целом наши результаты согласуются с большей частью прошлых исследований, сравнивающих человеческие и алгоритмические решения, и показывают, что статистические методы достоверно превосходили людей в прогнозировании ряда результатов.

Для того чтобы спрогнозировать насилие и другое преступное поведение, они отмечают, что алгоритмы «явно превосходят клинический [человеческий] подход». Аналогичным образом, несколько исследований, проведенных с судьями и сотрудниками исправительных учреждений, показывают, что алгоритмы и RAI превосходят их профессиональные суждения в прогнозировании рецидивизма.

На этом фоне открытия Дрессел и Фарида были неожиданными. Их работа, однако, помогает дать подсказки об условиях, при которых люди могут работать так же точно, как алгоритмические RAI. Хотя мы не могли исследовать каждую возможность в наших экспериментах, наши результаты указывают на два набора условий, которые влияют на относительную точность людей.

Во-первых, когда базовые показатели не сбалансированы, наши результаты показывают, что предоставление людям обратной связи может повысить точность их классификации.

Мы явно проинформировали всех участников наших экспериментов о базовом показателе рецидивизма, но точность классификации улучшилась только среди подгруппы участников, которые также получили обратную связь по результатам испытаний. В ходе испытаний люди, получившие обратную связь, по сравнению с теми, кто этой связи не получал, были менее склонны догадываться, что человек будет повторно совершать преступления.

В условиях правосудия такая обратная связь встречается крайне редко. Судьи могут никогда не узнать, что происходит с людьми, которых они приговорили, или с теми, за кого заплатили залог. Теоретически суды могут устранить этот пробел и создать более доброжелательную среду обучения, требуя, чтобы судьи выражали и записывали свои интуитивные оценки риска, и предоставляя обратную связь о предыдущих прогнозах на регулярной основе. Имея эту информацию, судьи могли бы, например, увидеть фактический уровень повторного рецидивизма среди тех, кого они относили к категории «высокого риска». Как и в наших экспериментах, эта обратная связь могла бы исправить тенденции к прогнозированию рецидивизма. Однако повышение точности судейского рейтинга может оказаться более сложным.

Во-вторых, наши результаты показывают, что люди могут прогнозировать рецидивизм так же, как и алгоритмы, если в качестве входных данных указаны только несколько простых прогностических факторов, как это было в исследовании Дрессел и Фарида.

В этом контексте упорядоченных входных данных точность алгоритмов и людей (без обратной связи) была в значительной степени взаимозаменяемой. Обратная ситуация сложилась, когда входные данные были обогащены дополнительными прогностическими факторами. В этих условиях алгоритмы превзошли людей по точности суждения. Не потому, что дополнительная информация о рисках ставила под угрозу человеческое суждение (эффективность людей не сильно отличалась в упрощенных и улучшенных условиях), а из-за того, что алгоритмы лучше использовали дополнительную информацию, чем люди.

Как и исследования Дрессел и Фарида, наши эксперименты сравнивают точность алгоритмов и RAI со структурой человеческого суждения. Мы надеемся, что для лучшего представления человеческого суждения в условиях правосудия будущие исследования предоставят еще более реалистичные и полные исходные данные для прогнозирования, включая нерелевантную или потенциально отвлекающую информацию. Тем не менее, наряду с прошлой работой, наши результаты подтверждают утверждение, что алгоритмические оценки риска часто могут превзойти человеческие прогнозы повторного совершения преступления.

Юань Джерри Лин, Йонгбин Юнг, Шэрад Гоэл, Дженнифер Ским, перевод Б. Ногманова
Общество

Новости партнеров