Реляционное глубокое обучение: Новая эра машинного обучения на реляционных базах данных
НовостиОтчеты

Реляционное глубокое обучение: Новая эра машинного обучения на реляционных базах данных

Авторы:
Matthias Fey, Weihua Hu, Kexin Huang, Jan Eric Lenssen, Rishabh Ranjan, Joshua Robinson, Rex Ying, Jiaxuan You, Jure Leskovec

Введение

Современный мир управляется данными, хранящимися в постоянно растущих реляционных базах данных и хранилищах данных, которые являются основой большинства информационных систем. Эти базы данных организованы в таблицы, связанные первичными и внешними ключами. Однако создание моделей машинного обучения на основе таких данных представляет собой сложную и трудоемкую задачу, так как современные алгоритмы машинного обучения не могут непосредственно обучаться на нескольких связанных таблицах.

Проблема

Существующие методы обучения с использованием табличных данных требуют предварительной обработки данных в единую таблицу с помощью ручного объединения и агрегации таблиц, что известно как инженерия признаков. Этот процесс является трудоемким, медленным и подверженным ошибкам. Более того, он ограничивает пространство возможных признаков, которые могут быть исследованы, и приводит к потере важной информации.

Предложение

В данном исследовании представлен новый подход, названный Реляционное Глубокое Обучение (RDL), который позволяет проводить обучение на реляционных базах данных с использованием графов. Основная идея заключается в представлении реляционных баз данных в виде временных, гетерогенных графов, где каждая строка таблицы является узлом, а связи между узлами определяются первичными и внешними ключами.

Ключевые Этапы RDL

  1. Создание тренировочной таблицы: Автоматически вычисляемые метки на основе исторических данных.
  2. Извлечение и кодирование признаков: Признаки извлекаются и кодируются для каждой строки.
  3. Обучение представлений узлов: Происходит обмен информацией между узлами с использованием графовых нейронных сетей.
  4. Создание модели и прогнозирование: Специфическая для задачи модель производит прогнозы, а ошибки распространяются обратно через сеть.

Основные Вкладки

  1. План RDL: Полностью обучаемый подход, который использует предсказательные сигналы реляционных данных и поддерживает временные прогнозы.
  2. Реализация прототипа: Внедрение RDL на основе PyTorch и PyTorch Geometric, демонстрирующее значительные улучшения по сравнению с методами обучения на одной таблице, такими как XGBoost.
  3. Исследовательские возможности: Определены направления для дальнейших исследований, включая многозадачное обучение, новые архитектуры GNN, многоскачковое обучение и другие.

Примеры задач

Предсказание покупок клиентов в e-commerce

Рассмотрим схему e-commerce, состоящую из таблиц CUSTOMERS, TRANSACTIONS и PRODUCTS. Задача – предсказать, совершит ли клиент покупку в следующие k дней. В данном случае RDL позволяет автоматически извлекать и использовать все доступные данные, минуя ручную инженерию признаков.

Прогнозирование оттока клиентов

Пример задачи, решаемой с помощью RDL, – предсказание оттока клиентов телекоммуникационной компании. Традиционный подход требует агрегации данных в единую таблицу, что трудоемко и неэффективно. RDL же позволяет напрямую использовать все доступные данные для создания предсказательной модели.

Временная Соответственность

Особенностью RDL является способность интегрировать временные аспекты данных. Модель учитывает временные метки, чтобы избежать утечки информации и ошибок “путешествия во времени”. Это осуществляется через временные графы сообщений, которые позволяют узлам получать сообщения только от соседних узлов с более ранними временными метками.

Прототип и Бенчмарк

В рамках исследования разработан и протестирован прототип RDL под названием RELBENCH, который включает в себя:

  • Набор данных Amazon и Stack Exchange.
  • Задачи предсказания жизненной ценности клиента и оттока клиентов.
  • Инструменты для загрузки данных и их преобразования в графовые структуры.

Заключение

Предложенный подход Реляционного Глубокого Обучения открывает новые горизонты для машинного обучения на реляционных базах данных. Он позволяет использовать все доступные данные без необходимости сложной и трудоемкой предварительной обработки, что значительно ускоряет и упрощает процесс создания моделей. В будущем планируется расширение области применения RDL и улучшение его архитектуры для достижения еще более высоких результатов.

Влияние

Реляционное глубокое обучение расширяет область применения графового машинного обучения, включая реляционные базы данных. Важно отметить, что, хотя данный подход является универсальным и может быть применен к различным задачам, основное внимание в текущем исследовании уделено положительным сценариям использования, таким как электронная коммерция и социальные сети. В будущем планируется расширение на другие области, включая биомедицинские данные и спортивные мероприятия, что обеспечит его применение в контексте общих благ.

Ссылки

Для получения более детальной информации и доступа к кодовым примерам, посетите сайт

Hi, I’m admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *