Meta випускає I-JEPA, модель машинного навчання, яка вивчає високорівневі абстракції з зображень

Meta випускає I-JEPA, модель машинного навчання, яка вивчає високорівневі абстракції з зображень

Дослідники з компанії Meta щойно представили свою першу модель штучного інтелекту. Порівнюючи абстрактні представлення зображень (а не порівнюючи самі пікселі), їхня архітектура Image Joint Embedding Predictive Architecture (I-JEPA) може навчатися і вдосконалюватися з часом.

Протягом кількох років головний науковець зі штучного інтелекту компанії Meta Ян Лекун (Yann LeCun) говорив про системи глибокого навчання, які можуть вивчати моделі світу з невеликою допомогою людини або взагалі без неї.

Зараз це бачення поступово втілюється в життя, оскільки компанія Meta щойно випустила першу версію I-JEPA, моделі машинного навчання (ML), яка вивчає абстрактні уявлення про світ шляхом самоконтролю навчання на зображеннях.

Початкові тести показують, що I-JEPA добре справляється з багатьма завданнями комп’ютерного зору. Вона також набагато ефективніша за інші сучасні моделі, вимагаючи для навчання вдесятеро менше обчислювальних ресурсів. Мета виклала навчальний код і модель у відкритий доступ і представить I-JEPA на конференції з комп’ютерного зору та розпізнавання образів (CVPR) наступного тижня.

Що таке нейронна мережа: простими словами

Самонавчання під наглядом

Ідея самонавчання натхненна тим, як навчаються люди і тварини. Ми отримуємо багато знань, просто спостерігаючи за світом. Так само і системи штучного інтелекту повинні мати можливість навчатися на основі безпосередніх спостережень, без необхідності маркування людиною своїх навчальних даних.

Самоконтрольоване навчання досягло значних успіхів у деяких галузях ШІ, зокрема в генеративних моделях і великих мовних моделях (ВММ). У 2022 році Лекун запропонував “спільну архітектуру предиктивного вбудовування” (JEPA) – самокеровану модель, яка може вивчати моделі світу і такі важливі знання, як здоровий глузд. JEPA суттєво відрізняється від інших самокерованих моделей.

Що таке нейромережа Midjourney та як генерувати фотографії з її допомогою?

Генеративні моделі, такі як DALL-E і GPT, призначені для детального прогнозування. Наприклад, під час навчання частина тексту або зображення затушовується, і модель намагається точно передбачити відсутні слова або пікселі. Проблема з намаганням заповнити кожен біт інформації полягає в тому, що світ непередбачуваний, і модель часто застряє серед багатьох можливих результатів. Ось чому ви бачите, як генеративні моделі дають збої при створенні деталізованих об’єктів, таких як руки.

На противагу цьому, замість деталей на рівні пікселів, JEPA намагається вивчити і передбачити високорівневі абстракції, такі як те, що має містити сцена і як об’єкти співвідносяться один з одним. Такий підхід робить модель менш схильною до помилок і набагато дешевшою, оскільки вона вивчає латентний простір середовища.

“Прогнозуючи репрезентації на високому рівні абстракції, а не передбачаючи безпосередньо значення пікселів, ми сподіваємося навчитися безпосередньо корисним репрезентаціям, які також уникають обмежень генеративних підходів”, – пишуть дослідники Meta.

Нейромережа, яка малює онлайн за описом чи з фото: топ 5

Що таке I-JEPA?

I-JEPA – це реалізація запропонованої Лекуном архітектури на основі зображень. Вона прогнозує відсутню інформацію, використовуючи “абстрактні цілі прогнозування, для яких потенційно усуваються непотрібні деталі на рівні пікселів, тим самим змушуючи модель вивчати більше семантичних особливостей”.

I-JEPA кодує наявну інформацію за допомогою трансформатора зору (ViT), варіанту архітектури трансформатора, що використовується в LLM, але модифікованого для обробки зображень. Потім він передає цю інформацію як контекст предиктору ViT, який генерує семантичні уявлення для відсутніх частин.

Дослідники з Meta навчили генеративну модель, яка створює ескізи на основі семантичних даних, передбачених I-JEPA. На наступних зображеннях I-JEPA отримала пікселі за межами синьої рамки як контекст і передбачила вміст всередині синьої рамки. Потім генеративна модель створила ескіз передбачень I-JEPA. Результати показують, що абстракції I-JEPA відповідають реальності сцени.

Що таке I-JEPA? Джерело зображення: Meta

Хоча I-JEPA не генерує фотореалістичних зображень, вона може мати численні застосування в таких галузях, як робототехніка та безпілотні автомобілі, де ШІ-агент повинен бути здатним розуміти своє оточення і обробляти кілька дуже правдоподібних результатів.

Дуже ефективна модель

Однією з очевидних переваг I-JEPA є ефективність використання пам’яті та обчислень. Етап попереднього навчання не потребує обчислювально інтенсивних методів доповнення даних, які використовуються в інших типах методів самонавчання. Дослідники змогли навчити модель з 632 мільйонами параметрів за допомогою 16 графічних процесорів A100 менш ніж за 72 години, що приблизно вдесятеро менше, ніж потрібно для інших методів.

Що таке I-JEPA? Джерело зображення: Meta
Що таке I-JEPA? Джерело зображення: Meta

“Емпірично ми виявили, що I-JEPA вивчає сильні готові семантичні уявлення без використання ручних доповнень”, – пишуть дослідники.

Їхні експерименти показують, що I-JEPA також вимагає набагато меншого тонкого налаштування, щоб перевершити інші найсучасніші моделі в таких завданнях комп’ютерного зору, як класифікація, підрахунок об’єктів і прогнозування глибини. Дослідники змогли точно налаштувати модель на наборі даних для класифікації зображень ImageNet-1K з 1% навчальних даних, використовуючи лише від 12 до 13 зображень на клас.

“Завдяки використанню простішої моделі з менш жорстким індуктивним упередженням, I-JEPA може бути застосована до ширшого кола завдань”, – пишуть дослідники.

Враховуючи високу доступність немаркованих даних в Інтернеті, такі моделі, як I-JEPA, можуть виявитися дуже цінними для додатків, які раніше вимагали великих обсягів даних, маркованих вручну. Навчальний код і попередньо навчені моделі доступні на GitHub, хоча модель випускається під некомерційною ліцензією.

Джерело: https://venturebeat.com/

Подібні новини