ТЕХНО
5 мин

Нейросети и «эффект бабочки». Как простые ошибки приводят к серьезным последствиям

Нейросети — инструмент с огромным потенциалом, но, как и любая технология, не лишенный недостатков. Одна из наиболее серьезных проблем — так называемые байасы (от англ. bias — предубеждение, предвзятость). Как и у людей, у искусственного интеллекта могут возникать систематические ошибки в суждениях, основанные не на объективной логике, но на неких упрощенных представлениях о мире, почерпнутых из данных, на которых он обучался.

Байасы опасны тем, что нейросети, работая с огромными массивами данных и принимая решения за доли секунды, могут масштабировать ошибки. Это приводит к необъективным решениям, потенциально опасным как для отдельных пользователей, так и для всего общества.

Ошибка выборки: когда данные подводят нейросети

Ошибка выборки — одна из самых распространенных проблем при работе с нейросетями и машинным обучением.

Например, нейронка, обученная на датасете фотографий, сделанных в Америке и Европе, хорошо распознает эмоции на лицах людей европеоидной внешности, но будет испытывать трудности с определением реакций у представителей других рас. Похожие трудности возникли на нашумевшем конкурсе красоты — алгоритм, выбирающий победительниц, был обучен на данных с преобладанием светлокожих женщин, в результате система обнаружила прямую связь между европеоидной внешностью и красотой. Из 44 финалисток почти все были белыми, несколько — азиатками, и только у одной была темная кожа.

Подобные ошибки могут приводить и к более серьезным последствиям. Так темнокожего американца Рэндала Рида задержали в штате Джорджия за кражи, которые совершил в штате Луизиана совсем другой человек. Причиной ошибки стала технология распознавания лиц, используемая полицией Луизианы. Рид был идентифицирован как подозреваемый, хотя он никогда не был в Луизиане и не совершал никаких преступлений. Мужчина провел в тюрьме почти неделю, прежде чем адвокаты смогли доказать его невиновность. И это не единичный сбой системы: в США зафиксировано уже шесть подобных случаев.

Еще больше тревог вызывают байасы в медицине. Алгоритм, обученный диагностировать рак кожи, может пропустить злокачественное образование на темной коже, так как он научился ассоциировать этот вид онкологии с определенными признаками, которые чаще встречаются у людей со светлой кожей.

Проблема с ошибкой выборки в медицине выходит далеко за рамки диагностики рака кожи. ИИ используется для прогнозирования рисков заболеваний, назначения лечения и даже принятия решений о госпитализации. Если алгоритмы обучены на необъективных данных и внедряются в повседневную жизнь медучреждений, это может привести к серьезным последствиям для здоровья миллионов людей.

В целом можно сказать, что ошибка выборки — не приговор. Ее успешно побеждали и будут побеждать во всех областях, где она возникает. К примеру, в распознавании речи ученые используют специальные техники обработки голоса, чтобы научить модель правильно определять то или иное произношение. Они создают синтетические голоса с разными акцентами и загружают их в модель во время обучения. Это позволяет алгоритмам повысить точность распознавания речи.

Спираль предубеждений: как частные взгляды программируют алгоритмы

Байас подтверждения — когнитивное искажение, при котором человек ищет и интерпретирует информацию определенным образом, чтобы подтвердить свои убеждения. При этом противоречивые данные игнорируются или недооцениваются.

В контексте нейросетей этот эффект проявляется, когда модели, обученные на данных, содержащих разнообразные предубеждения, в своих выводах и прогнозах начинают эти предубеждения усиливать.

Например, нейросеть пишет новости на основе большого массива текстов из интернета. Если преобладают публикации определенной политической направленности, ИИ, скорее всего, унаследует этот паттерн и к генерированию контента будет подходить предвзято.

Еще пример — рекомендательные алгоритмы. Если пользователь чаще взаимодействует с контентом, поддерживающим его точку зрения, алгоритм будет предлагать больше похожих материалов. Так возникают информационные пузыри.

В отличие от байаса выборки, в основе которого — нерепрезентативность данных, байас подтверждения связан с искажением в процессе обучения нейросети. ИИ учитывает определенные паттерны и игнорирует другие, что также приводит к необъективности.

Недавнее исследование, проведенное в США, показало, что ChatGPT имеет явный уклон в сторону ценностей демпартии. Ученые применили так называемый тест плацебо, задавая модели вопросы, не связанные с политикой. Если бы ChatGPT действительно был нейтральным, его ответы не отличались бы от ответов, которые могли бы дать сторонники различных политических течений. Тем не менее результаты показали, что даже на нейтральные темы ответы модели были ближе к левому спектру. Это подтверждает предположение о системной политической предвзятости ChatGPT, что поднимает важные вопросы о влиянии ИИ на общественное мнение и политическую дискуссию.

Алгоритмическая предвзятость: код как зеркало предрассудков

Алгоритмическая предвзятость — это когда алгоритмы, используемые в системах принятия решений, систематически и несправедливо ставят определенные социальные группы в невыгодное положение по сравнению с другими. Эта предвзятость — часто непреднамеренный результат предубеждений, содержащихся в данных, на которых обучался алгоритм. Например, система, отбирающая резюме откликнувшихся на вакансии, может быть обучена на данных, где большинство руководителей — мужчины. В итоге даже если женщина обладает всеми необходимыми навыками, программа может отдать предпочтение мужчине. Алгоритмическая предвзятость, в отличие от ошибки выборки, связана не с репрезентативностью данных, а с самим алгоритмом и его обучением. Этот тип байаса проявляется, когда ИИ систематически выдает несправедливые или необъективные результаты для определенных групп данных, даже если эти группы представлены в выборке пропорционально.

Алгоритмы, несмотря на кажущуюся объективность, могут быть подвержены предубеждениям. Исследования показывают, что ИИ, обученный на данных, отражающих существующее социальное неравенство, может невольно закрепить и усилить его. В судах штата Флорида применялось программное обеспечение, которое прогнозировало возможность рецидива, выставляя людям баллы от 1 до 10. При прочих равных у белых людей баллы были стабильно ниже, чем у темнокожих. Это происходило потому, что алгоритм обучался на данных, отражающих устоявшиеся социальные предубеждения: в выборках темнокожих людей среди осужденных было непропорционально больше.

Похожие примеры можно найти не только в США. В Нидерландах алгоритм при оценке риска мошенничества с налогами учитывал возраст, пол, наличие детей, проблемы с работой, знание языка и даже аддикции. Хотя некоторые факторы кажутся логичными (например, безработные могут быть более склонны к нарушениям), система игнорировала контекст. Обучаясь на данных, отражающих социальные стереотипы, она могла, например, ошибочно принять женщину с детьми и трудностями с работой за мошенницу, не учитывая возможную дискриминацию на рынке труда или проблемы с доступом к детским садам.

Вместо того чтобы анализировать социальные факторы и индивидуальные обстоятельства, алгоритм концентрируется на статистических корреляциях, не вникая в причины и контекст. В результате система может ошибочно классифицировать человека, столкнувшегося с жизненными трудностями, как потенциального мошенника.

Для борьбы с подобными проблемами ученые решили выбить клин клином и разработали специальные методы искусственного создания предвзятости в данных. Один из таких методов называется Simulated Bias in Artificial Medical Images (SimBA).

SimBA генерирует изображения с искусственными изменениями, которые имитируют реальные предубеждения, например, связанные с возрастом, полом или расой. Это позволяет обучить модели ИИ на данных с известной предвзятостью, а затем изучить, как эта предвзятость влияет на результаты анализа.

В поисках баланса

Развитие технологий искусственного интеллекта — палка о двух концах. С одной стороны, это дает невероятные возможности для оптимизации и улучшения многих сфер жизни, с другой — несет риски из-за необъективности алгоритмов. Но это не повод отказываться от огромного потенциала ИИ. Как и любой инструмент, нейросети можно настраивать и совершенствовать, и работы в этом направлении уже ведутся.

Одно из ключевых направлений исследований в области ИИ — разработка методов дебаисинга (т. е. выявление и нейтрализация предубеждений в алгоритмах). К примеру, для борьбы с ошибкой выборки разрабатываются стратегии формирования более репрезентативных датасетов. Это включает в себя не только сбор большего объема данных, но и активное использование методов их аугментации — например, создание синтетических данных, которые заполняют пробелы в существующих наборах (как упоминавшаяся система SimBA). Уже сегодня видны результаты этой работы.

Пользователи в целом, особенно в мегаполисах, должны быть готовы к тому, что будут все чаще сталкиваться с искусственным интеллектом — и в самых банальных ситуациях, и в сложных, связанных со здоровьем и судебной системой. Проблемы байасов указывают на то, что поведение ИИ далеко не всегда будет оправдывать их ожидания, и нужно быть к этому готовым.

Пишите нам

Спасибо, что написали! Вернемся к вам на почту :)

Мы мечтаем собрать самую большую команду талантливых авторов в России. Если вы придумали идею большого текста, готовы поделиться опытом в формате колонки или стать героем нашего подкаста, напишите нам.

 

Как говорили в популярной рекламе начала 00-х: лучшие руки трудоустроим.

Имя *
e-mail *
о себе *

Читайте также