Люди хотят знать об алгоритмах – но не очень много

Доверяете ли вы алгоритмам в целом? А в тех случаях, когда речь идёт о собственном здоровье или образовании вашего ребёнка? Насколько для вас важна прозрачность, предоставленной информации? Для того чтобы ответить на эти вопросы, необходимо знать некоторые нюансы, о которых мы расскажем ниже.

Доверяй, но проверяй

Одним прекрасным летним утром вы приходите на запланированную консультацию (для регулярного осмотра) в местную клинику с высоким рейтингом. Вы входите в кабинет, чувствуя себя прекрасно. Вы поднимаете свою руку и говорите: «Доктор, мне больно, когда я так делаю». Доктор отвечает: «В таком случае – не делайте этого». Вы оба посмеиваетесь. Но ваше настроение изменится «несколько анализов спустя». У вашего терапевта, дружелюбного пожилого доктора есть плохие новости.

« – Боюсь, вы подвержены высокому риску лихорадки Тапанули, – сообщает посерьёзневший эскулап. – Это заболевание с неизбежным смертельным исходом. Но есть и хорошие новости: существует лекарство, которое может помочь предотвратить её. Я рекомендую вам начать принимать его немедленно. Оно может вызывать головокружение, раздражительность и внезапную тошноту. Но, в любом случае, это – мелочи по сравнению с самой лихорадкой».

Вы озадачены. « – Я никогда не слышал об этой болезни, – протестуете вы, когда он выписывает рецепт. – Откуда вы знаете, что я в зоне риска?»

Доктор показывает вам компьютерную распечатку, заполненную непонятными цифрами и терминами. Он указывает на строку в нижней части формы, которая гласит: «TAPANULI FEVER: 17,88». « – Этот фактор риска слишком высок, – объясняет он. – Мы хотим, чтобы этот показатель был меньше 5. Таблетки должны помочь».

« – Но откуда взялись эти цифры?» – недоумеваете вы.

Доктор пожимает плечами. « – Это наша новая AI-система. Очень популярна в наши дни. Программное обеспечение заключает в себе знания тысячи лучших диагностов, встроенных в него. Не имеет особого смысла сомневаться в том, что она говорит, если вы хотите остаться в живых, безусловно».

Вы берёте рецепт и уходите. Но по дороге домой вы не можете решить, стоит ли заходить в аптеку. Вы верите в технологии и чудеса машинного обучения. Но не уверенны, сможете ли смириться с головокружением, раздражительностью и тошнотой ради того, чтобы предотвратить возможность какого-то неизвестного заболевания только потому, что компьютерное программное обеспечение клиники говорит, что вы должны так поступить. Когда дело доходит до здоровья, доверяете ли вы алгоритму?

Если ваш ответ отрицательный, можете подумать о причинах. В большей мере это может быть связано с не совсем ясным объяснением доктора. Что если в ответ на ваш вопрос «Откуда взялись эти цифры?», он бы ответил: «Ваш утренний анализ крови показывает, что у вас необычно низкие уровни трёх белков, которые помогают иммунной системе защищаться от лихорадки Тапанули. А анализ генома, который мы провели прошлой осенью, уже показывал повышенную уязвимость к нескольким синдромам, связанными с Юго-Восточной Азией. Исследование, проведенное в The New Jersey Journal of Medicine, показало, что подобная совокупность признаков приводит к 94%-увеличению заболеваемости лихорадкой Тапанули. Программное обеспечение объединяет все эти данные и вычисляет ваш фактор риска – число, которое я показал вам в распечатке». Услышав эти подробности, вы, вероятно, найдёте аргумент в пользу лекарств более убедительным, даже если не поняли всего того, что сказал доктор.

Конечно, эта история сфабрикована, а болезнь вымышленная. (Лихорадка Тапанули появляется в «Приключении умирающего сыщика», рассказе о Шерлоке Холмсе, написанном в 1913 году сэром Артуром Конан Дойлем). Но поскольку в настоящее время программное обеспечение, использующее AI, применяется для диагностики заболеваний и расчёта факторов риска для различных состояний, на повестке дня возник вопрос: что нужно пациентам и врачам, чтобы доверять алгоритму в отношении болезней и здоровья. Исследования показывают, что прозрачность является ключом к пониманию, принятию и вере. Пусть люди заглянут внутрь чёрного ящика алгоритма, и их недоверие, враждебность и страх постепенно исчезнут.

Этот аргумент звучит достаточно логично. Но так ли это? Является ли прозрачность основным фактором, способствующим укреплению доверия к алгоритмам? Как и многое другое в этой области, ответ интересный … и сложный.

Эксперимент Насса

У Клиффорда Насса (Clifford Nass) была проблема. Студенты в его популярном классе Стэндфордского университета по технологии проектирования интерфейсов жаловались на свои оценки по промежуточному экзамену. Хотя такие жалобы не редкость, они имели конкретную, существенную основу в этом случае. Студенты обнаружили, что в одном из семестров курса они получают значительно более низкие оценки по экзаменам, чем их коллеги, даже если их сочинения были схожими.

Причину проблемы было нетрудно определить. Работы оценивали два разных учебных ассистента. Поскольку оценка эссе по своей природе субъективна, неудивительно, что оценки УА (учебный ассистент) разнятся. Один из способов минимизировать эту проблему – назначить отдельного УА для оценки конкретных тестовых вопросов для всей группы студентов. В этой системе любые два студента, сравнивающие свои оценки по заданному вопросу, понимают, что оценка является справедливой, потому что один и тот же УA прочёл оба ответа. Но Насс решил не следовать этой процедуре. Поскольку в классе было более 200 учеников, но всего лишь два вопроса на экзамене, Насс разделил аттестацию УА по классам. Это простое, эффективное решение внесло роковой элемент предвзятости и спровоцировало оправданное несогласие о стороны учеников.

Насс мог бы просто уступить, извиниться и принять систему деления на вопросы для будущих экзаменов. Но, как ведущий эксперт по взаимодействию человека с компьютером, он вместо этого увидел возможность для статистического решения. Используя идею, предложенную одним из его УА, Насс решил исправить неточность оценки, создав алгоритм.
Насс и его научный сотрудник совместно трудились, чтобы изучить тенденции оценки каждого УА на основе его или её оценки аналогичных наборов проблем. Затем они создали простую статистическую модель для корректировки оценок учащихся, чтобы противодействовать индивидуальным отклонениям в оценках, например, путём повышения оценок на 5% в письменных работах, оцененных УA, которые, как известно, дают оценки на 5% ниже, чем в среднем.

Насс был уверен, что его ученики останутся довольными. Он отправил им электронные письма, содержащие как их исходные, так и скорректированные оценки на основе его простого алгоритма. Он также тщательно объяснил детали своего алгоритма и того, как он обеспечивает максимально возможную справедливость.
Насс был поражен, когда студенты ответили новыми жалобами – некоторые из которых были даже серьёзнее, чем изначальные. Что-то явно пошло не так.

В основе этой головоломки лежит запутанность прозрачности и доверия. Когда мы взаимодействуем с алгоритмами, мы знаем, что имеем дело с машинами. И всё же их интеллект и способность имитировать человеческие шаблоны мышления и общения сбивают нас с толку, и мы начинаем рассматривать их как людей. Исследователи заметили, что, когда пользователей компьютеров просят описать, как машины взаимодействуют с ними, они используют антропоморфные термины, такие как «надёжность», «честность» и «жестокость». По крайней мере, наш язык предполагает, что мы ожидаем такой же степени достоверности, благожелательности и справедливости от компьютерных алгоритмов, с которыми имеем дело, как и от наших знакомых людей.

Это объясняет, почему использовать прозрачность для повышения доверия к алгоритмам сложнее, чем можно предположить. Трудности, связанные с прозрачностью в целом, и неудачными попытками Насса в области оценки прозрачности в частности можно увидеть и в массовых открытых онлайн-курсах, более известных как MOOC. Не зависимо от таких факторов, как местоположение ученика или размера аудитории, университеты, колледжи и образовательные платформы, такие как Coursera, предлагают онлайн-занятия, которые могут посещать десятки тысяч студентов. Например, курсы предпринимательства на Coursera, прошли почти 100 000 студентов (по сравнению с примерно 2500 студентами в течение 15 лет в традиционных классах университетов). Охват MOOC велик, но у них есть свои собственные проблемы, например, как активно привлекать многих учеников, с которыми вы не взаимодействуете, или как оценивать сложные задания, такие как эссе или проекты, выполненные классом, насчитывающим больше чем 10000. Большинство MOOC используют взаимное оценивание вместо УА-оценки. Другими словами, студентов просят оценить работу друг друга. Поначалу это может показаться странным, но исследования показали, что взаимное оценивание на самом деле сравнимо с оценкой преподавателя. Анонимное взаимное оценивание повышает точность оценок, уменьшая фаворитизм и другие подобные проблемы, а также устраняет необходимость нанимать сотни экзаменаторов для каждого курса. Тем не менее, это не устраняет проблему предвзятости экзаменаторов – на самом деле, она усиливает её, потому что в неё вовлечено гораздо больше экзаменаторов с различными личностями и тенденциями.

Сила прозрачности

Рене Кизилчек (René Kizilcec), молодой аспирант из Стэндфорда, хотел решить проблему предвзятости. Его интерес не был случайным. Насс был его ментором, и Кизилчек стал свидетелем недовольств в классе. Когда Рене поступил в аспирантуру к Нассу, он планировал работать над созданием доверительных интерфейсов для полуавтономных транспортных средств. Но в ноябре 2013 года произошла трагедия: 55-летний Насс перенёс сердечный приступ и умер. Оставшись без своего любимого ментора, Кизилчек всё больше и больше думал о проблеме оценки, которую Насс оставил нерешённой.

Кизилчек обнаружил, что многие из MOOC использовали различные вариации алгоритма корректировки оценки, созданного одним из его коллег. Интересно, что ни один из MOOC не объяснил эту политику оценки своим студентам. Менеджеры MOOC не были уверены в целесообразности информирования студентов о том, как определяются их оценки. Для студентов ставки были высоки, потому что оценки определяли, получат ли они сертификат о завершении курса.

Кизилчек намеревался создать онлайн-версию оригинального эксперимента Насса с алгоритмически скорректированными оценками и использовать его для проверки того, как прозрачность может в конечном итоге изменить степень доверия, которое учащиеся будут оказывать алгоритмам. Он начал с группы из 103 студентов, которые представили эссе для взаимного оценивания. Каждое эссе было оценено нескольким людьми. Кизилчек попросил этих учеников указать оценку, которую они ожидали получить. Затем каждый учащийся получил как комбинированную оценку – простое среднее значение оценок, – и вычисленную оценку, которая была скорректирована с помощью алгоритма.

Чтобы проверить влияние прозрачности на доверие, Кизилчек варьировал количество информации, которую каждый студент получал о процессе аттестации. Одной группе учеников была предоставлена минимальная прозрачность о работе алгоритма, и они просто были проинформированы о вычисленной оценке.

Второй группе учеников был дан целый параграф, объясняющий, как оценки были скорректированы с помощью простого алгоритма: «Ваша расчётная оценка – X, которая основана на оценках, полученных от ваших сокурсников, и скорректирована с учётом их предвзятости и точности оценки. Точность и систематическая ошибка оцениваются с использованием статистической процедуры, которая применяет алгоритм максимизации ожидания с априорной оценкой класса».

Сразу после получения этой информации участникам было задано несколько вопросов, чтобы оценить их доверие к системе взаимного оценивания. Вопросы касались понимания процесса («В какой степени вы понимаете, как ваша оценка рассчитывается по оценке сокурсников?»), а, также, воспринимаемой справедливости, точности и, наконец, доверия.

Основываясь на их ожидаемых и итоговых оценках, Кизилчек разделил учащихся на две группы: те, кто получил оценку, аналогичную ожиданиям, и те, чьи надежды рухнули (то есть они получили более низкую оценку, чем ожидали). Отношение обеих групп к оценке прозрачности оказалось совершенно разным. Для учащихся, чьи ожидания по оценкам были оправданы или превышены, уровень прозрачности не влиял на их уровень доверия. Но для тех, кто получил неприятный сюрприз, уровень доверия был тесно связан с уровнем прозрачности. Разочарованные студенты, которым дали больше информации о процедуре оценки, оценили своё доверие к системе оценок выше, чем те, кто получил минимальные объяснения.

Кизилчек объяснил этот результат ссылкой на свойственную человеку тенденцию к более тщательному анализу информации, когда ожидания не оправдываются, и на идею, что люди часто удовлетворены системой, даже когда сталкиваются с отрицательным или разочаровывающим результатом, если они считают, что основной процесс справедливый. Алгоритм оценки – это попытка скорректировать ошибки и неточности. «Мы согласны с тем, что это правильно, даже если результат имеет для нас отрицательное значение … даже если [наша] оценка будет снижена», – говорит Кизилчек. Это означало, что даже студенты, получившие плохие оценки, были готовы доверять системе, если полученная о процессе информация убеждала их в том, что были приложены все усилия для обеспечения справедливости оценивания.

В таком случае, где же Насс ошибся? Почему его подробное объяснение алгоритма оценки не завоевало доверия студентов и не подавило их жалобы?

Ответ предоставлен другим аспектом эксперимента Кизилчека. Фактически, он протестировал не два уровня прозрачности, а три. Два упомянутых выше уровня были обозначены как низкий и средний. Третий набор учащихся получил не только параграф объяснения со среднего уровня, но также и их индивидуальные необработанные баллы от сверстников, а также подробную информацию о том, как именно эти необработанные баллы были объединены и скорректированы для достижения итоговой оценки.

И вот тут-то исследователей ожидал сюрприз. У студентов, чьи ожидания не сбылись, средний уровень прозрачности повысил доверие относительно низкого уровня. Но те, кто столкнулся с высоким уровнем прозрачности, как и следовало ожидать, не испытали ещё большего чувства доверия к алгоритму. Вместо этого они сообщили о ещё меньшем доверии, чем в группе с низкой прозрачностью!

Что всё это значит?

Кизичек утверждает, что результаты основаны на нашей склонности к антропоморфизации машин, а также на социальных правилах и эвристике, которые мы используем в человеческих взаимодействиях. Когда мы встречаемся с новыми людьми, мы не решаемся развивать с ними тесные доверительные и дружеские отношения, пока не увидим некоторые доказательства того, что они честны и прямолинейны. Мы ожидаем определённой степени прозрачности от других и не доверяем тем, кто отказывается их предоставлять, поэтому мы склонны избегать людей, которые скрывают свои мысли и намерения. Кизилчек также отмечает, что многим из нас также трудно любить и доверять людям, которые чрезмерно прозрачны. Те, кто тратит слишком много времени на объяснение и оправдание своих намерений, часто вызывают у нас подозрения, и мы начинаем задумываться: «Что он пытается доказать?»

Таким образом, для людей существует такая вещь, как «правильная» степень прозрачности – не слишком маленькая, но и не слишком большая. Кизилчек утверждает, что то же самое относится и к алгоритмам. Слишком много информации может подорвать доверие пользователей, как и её недостаток. Кизилчек верит – и имеет все основания полагать, – что есть аналогичная точка доверия для взаимодействия между человеком и алгоритмом.

Теперь мы можем понять, где Клиффорд Насс ошибся. Насс проинформировал своих учеников о том, как были рассчитаны их новые скорректированные оценки, и его целью было завоевать их доверие с помощью алгоритмической прозрачности. Но Насс на самом деле переоценил алгоритм. В двух длинных электронных письмах он подробно описал точные методы, используемые для расчёта оценок. В одном случае он писал: «Имея эти данные, мы можем вычислить ваш промежуточный Q1 с поправкой. Формула: промежуточный Q1 Скорректированный = ((неправильное число промежуточного Q1 – среднее значение ВАШЕГО экзаменатора)/(.5 * интерквартильный диапазон ДЛЯ ВАШЕГО экзаменатора)) + 4». Это объяснение сопровождалось ещё более конкретными расчётами.

Вероятно, Насс победил бы своих учеников, если бы предоставил им достаточно информации, чтобы убедить их в справедливости процедуры корректировки оценок, и остановился на этом. Предлагая столь подробное объяснение, он вызвал негативную реакцию. Возможно, чрезмерный уровень детализации сместил внимание студентов с честности процесса обратно к их неблагоприятным оценкам или к их непониманию фактической процедуры, тем самым разрушив всё доверие, которое Насс надеялся получить.

Используя современную лексику, это был случай TMI (англ. too much information) – слишком много информации.

ЧИТАЙТЕ ТАКЖЕ:

Источник: Wired

Читайте также:

Для чего нужен Facebook Dating?

У 22% миллениалов нет друзей

5 простих кроків, щоб зробити штучний інтелект силою добра

5 дуже незвичайних прогнозів від IBM Research