Зачем создатели ChatGPT пытаются объяснить себя искусственным интеллектом — и сталкиваются с серьезными проблемами
Краткое содержание :
Исследователи говорят, что чат-бот может использовать понятия, для которых у нас нет названий или понимания.
Создатели ChatGPT попытались заставить систему объяснить себя.
Они обнаружили и столкнулись с некоторыми проблемами, включая тот факт, что искусственный интеллект может использовать концепции, которые люди не назвали или не поняли.
Исследователи в OpenAI, разработавшей ChatGPT, использовали самую последнюю версию своей модели, известную как GPT-4, чтобы попытаться объяснить поведение более ранней версии GPT-2.
Это попытка преодолеть так называемую проблему черного ящика с помощью больших языковых моделей, таких как GPT. Хотя у нас есть относительно хорошее понимание того, что входит и выходит из таких систем, фактическая работа, которая происходит внутри, остается в значительной степени загадочной.
Это проблема не только потому, что это затрудняет работу исследователей. Это также означает, что мало способов узнать, какие предубеждения могут быть связаны с системой, или предоставляет ли она ложную информацию людям, ее использующим, поскольку нет никакого способа узнать, как она пришла к таким выводам.
Инженеры и ученые стремились решить эту проблему с помощью «исследования интерпретаций», которое направлено на то, чтобы найти способы заглянуть внутрь самой модели и лучше понять, что происходит. Для этого часто требовалось взглянуть на «нейтроны», из которых состоит такая модель: так же, как и в человеческом мозге, система ИИ состоит из множества так называемых нейтронов, представляющих части используемых ею данных.
Однако найти их сложно, поскольку людям приходилось выбирать нейроны и вручную проверять их, чтобы выяснить, что они представляют. Но некоторые системы имеют сотни миллиардов параметров, так что пройти их все с людьми невозможно.
Автоматизация процесса познания самого ИИ
Теперь исследователи из OpenAI попытались использовать GPT-4 для автоматизации этого процесса, пытаясь быстрее разобраться в поведении. Они сделали это, попытавшись создать автоматизированный процесс, который позволил бы системе предоставлять объяснения поведения нейрона на естественном языке — и применить это к другой, более ранней языковой модели.
Это работало в три этапа: просмотр нейрона в GPT-2 и попытка GPT-4 объяснить его, затем моделирование того, что этот нейрон будет делать, и, наконец, оценка этого объяснения путем сравнения того, как смоделированная активация работала с реальной.
Большинство из этих объяснений пошли плохо, и GPT-4 плохо себя зарекомендовал. Но исследователи заявили, что надеются, что эксперимент покажет, что можно использовать технологию ИИ для самого объяснения при дальнейшей работе.
Однако создатели столкнулись с рядом «ограничений», которые означают, что система в том виде, в каком она существует сейчас, не так хороша, как люди, в объяснении поведения. Часть проблемы может заключаться в том, что объяснить, как система работает на обычном языке, невозможно, потому что система может использовать отдельные концепции, которые люди не могут назвать.
«Мы сосредоточились на коротких объяснениях на естественном языке, но нейроны могут иметь очень сложное поведение, которое невозможно описать лаконично»
— пишут авторы.
Он также сталкивается с проблемами, потому что он сосредоточен на том, что каждый нейрон делает индивидуально, а не на том, как это может повлиять на вещи позже в тексте. Точно так же он может объяснить конкретное поведение, но не то, какой механизм вызывает это поведение, и, таким образом, может обнаружить.
Исследователи отмечают, что система также использует много вычислительной мощности.