Apple тихо запустила открытую мультимодальную LLM под названием Ferret

исследователи искусственного интеллекта из Apple Inc. и Корнельского университета тихо представили открытую и мультимодальную большую языковую модель (LLM) под названием Ferret в прошлом октябре. Ferret использует части изображений в качестве запросов и может определять элементы в определенной области изображения, обводить их рамкой и использовать идентифицированные элементы в качестве части запроса, на который она затем отвечает традиционным способом. Выпуск Ferret на GitHub прошел незаметно, без объявлений, но с тех пор привлек внимание исследователей AI. Это демонстрирует неожиданную открытость со стороны Apple, что противоречит ее обычной секретности.

Основные моменты

Мультимодальная LLM Ferret: Ferret — это система, которая может «ссылаться и основываться на чем угодно, где угодно и с любой степенью детализации». Она способна анализировать специфические регионы изображения и использовать их в качестве запросов для ответов.
Неожиданная открытость Apple: Выпуск Ferret подчеркивает неожиданную открытость со стороны Apple в индустрии AI, что является прямым контрастом к ее обычной секретности. Это может быть стратегией Apple в индустрии AI, где компания сталкивается с конкуренцией от таких гигантов, как Microsoft и Google.
Важность и последствия для AI: Выпуск Ferret подчеркивает важность и потенциальные последствия мультимодальных LLM в области искусственного интеллекта. Это открывает новые возможности для исследований и разработок в области AI, особенно в медицине и других секторах.