Искусственный интеллект и человеческие предпочтения: за пределами традиционных подходов к выравниванию
Исследования

Искусственный интеллект и человеческие предпочтения: за пределами традиционных подходов к выравниванию

В последние годы вопрос выравнивания искусственного интеллекта (ИИ) с человеческими ценностями стал одной из ключевых тем в области исследований ИИ. Традиционно считалось, что для достижения безопасного и полезного поведения ИИ необходимо выравнивание с человеческими предпочтениями, вознаграждениями или функциями полезности. Однако недавняя работа исследователей из ведущих университетов, таких как Массачусетский технологический институт и Калифорнийский университет в Беркли, ставит под сомнение эту парадигму, предлагая более сложный подход к выравниванию ИИ.

Проблемы традиционного подхода

  1. Ограничения теории рационального выбора: исследователи указывают на то, что человеческое поведение не всегда соответствует теории рационального выбора, которая предполагает, что люди действуют так, чтобы максимизировать удовлетворение своих предпочтений. Это ставит под сомнение возможность моделирования человеческих ценностей с помощью предпочтений или функций полезности.
  2. Неизбежность максимизации полезности: нет оснований полагать, что продвинутые ИИ-системы неизбежно будут стремиться максимизировать какую-либо функцию полезности. Это предположение, часто используемое в теории выравнивания, может быть неверным.
  3. Конструктивная природа человеческих предпочтений: человеческие предпочтения часто являются производными и конструктивными, что делает выравнивание ИИ с заявленными предпочтениями людей неэффективным. Вместо этого предлагается выравнивать ИИ с нормативными стандартами, соответствующими их социальным ролям.
  4. Философские и математические трудности агрегации предпочтений: Агрегация предпочтений различных людей сталкивается с серьёзными трудностями, что делает выравнивание ИИ с «коллективной волей человечества» проблематичным.

Альтернативные подходы к выравниванию ИИ

Исследователи предлагают перейти от традиционного подхода, основанного на предпочтениях, к более сложным моделям, которые учитывают нормативные стандарты и социальные роли ИИ. Это включает:

  • Выравнивание с нормативными стандартами: вместо того, чтобы пытаться выровнять ИИ с предпочтениями отдельных пользователей или человечества в целом, предлагается выравнивание с нормативными стандартами, которые соответствуют социальным ролям ИИ, например, роли помощника или программиста.
  • Моделирование человеческого поведения: предлагается использовать более сложные модели, которые учитывают ограниченные ресурсы человеческого мышления и конструктивную природу предпочтений. Это может включать многозадачные и частично упорядоченные представления предпочтений.
  • Интеграция нормативных рассуждений: важным шагом является интеграция теорий нормативных рассуждений в системы ИИ, что позволит им лучше понимать и учитывать человеческие ценности и нормы.

Заключение

Переход к более сложным моделям выравнивания ИИ требует пересмотра традиционных подходов и разработки новых методов, которые учитывают сложность человеческих ценностей и предпочтений. Это не только повысит безопасность и полезность ИИ, но и позволит создавать системы, которые будут лучше соответствовать разнообразным и меняющимся потребностям общества.

Hi, I’m admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *