Дізнайтеся що таке Sora AI – модель штунчого інтелекту від OpenAI, яка створює відео з тексту. Вона здатна генерувати відео відповідно до ілюстративних і текстових підказок, розгортати існуючі відео вперед або назад у часі, а також генерувати відео з нерухомих зображень.
Нещодавно OpenAI оголосила про свою останню приголомшливу технологію – Sora, яка є моделлю штучного інтелекту, що генерує відео з тексту.
Все, що ми знаємо про GPT-5: яким він може бути
Уявіть світ, де ви можете створити будь-яку візуальну реальність, про яку тільки можете мріяти. Це потенціал Sora, останньої розробки OpenAI, що вражає уяву.
Що таке Sora?
Уявіть собі, що Sora – це голлівудський художник зі спецефектів на стероїдах. Але замість пікселів і полігонів він використовує силу штучного інтелекту, щоб малювати рухомі картинки на полотні вашої уяви.
Якість вражає, і це справжній стрибок уперед, порівняно з яким сучасні відеоінструменти зі штучним інтелектом виглядають застарілими.
Але Sora – це не просто красиві рухомі картинки. Вона дозволяє розуміти світ так, як комп’ютери ніколи раніше не розуміли. Тренуючись на величезній базі даних відео, Sora вивчила складний звязок причин і наслідків, який розігрується в нашому фізичному світі. Вона може передбачити, як рухатимуться об’єкти, як взаємодіятиме з ними світло, і навіть як звучатимуть речі.
Ця здатність розуміти фізику світу робить Sora потужним інструментом для різноманітних застосувань. Уявіть, як можна використовувати її для навчання роботів, проектування безпечніших автомобілів, ефективніших літаків чи навіть нових методів лікування. Можливості дійсно безмежні.
Комп’ютери стають дедалі потужнішими і починають розмивати межі між реальним і віртуальним. Моделі генерації відео є яскравим прикладом цієї тенденції. Ці моделі можуть створювати настільки реалістичні світи, що можуть обдурити наші органи чуття. Це піднімає цікаві питання про природу реальності та наше місце в ній.
Sora – це дифузійна модель, яка на основі вхідних даних (та інформації про умови, наприклад, текстових підказок) навчається передбачати вихідні “чисті” дані.
Велика історія АІ Sora
До появи Sora було розроблено безліч моделей перетворення тексту у відео. Серед них Make-A-Video від Meta, Lumiere від Google, Gen-2 від Runway тощо.
OpenAI – це компанія, яка розробила Sora. У вересні 2023 року вона також випустила DALL-E 3, третю зі своїх моделей перетворення тексту в зображення DALL-E. Вони розробили Sora і назвали її на честь японського слова, тобто “Небо”, щоб позначити її “необмежений потенціал для творчості”.
15 лютого 2024 року Open AI вперше презентувала Sora, випустивши численні кліпи створених нею відеороликів у високій чіткості. Він включав анімацію “короткого пухнастого монстра”, “позашляховика, що їде гірською дорогою”, “тварин, які катаються на велосипедах у морі” тощо, а також зазначив, що може генерувати текстові відео тривалістю до однієї хвилини.
Після цього компанія поділилася технічним звітом, в якому підкреслила методи, використані для навчання моделі. OpenAI також заявила, що планує незабаром зробити Sora загальнодоступною, проте дату поки що не назвала.
Крім того, компанія надала обмежений доступ невеликій “червоній команді” та експертам з дезінформації та упередженості для проведення тестування моделі в змагальному режимі. Компанія також поділилася Sora з невеликою групою творчих професіоналів, включаючи відеомейкерів та художників, щоб отримати відгуки про її корисність у творчих сферах.
Як отримати доступ до Sora AI?
Sora AI поки що недоступний для громадськості без запрошення. Окремим творцям і тестувальникам пропонується використовувати модель ШІ та тестувати її, щоб OpenAI могла діяти на основі зворотного зв’язку, щоб забезпечити її готовність до публічного релізу. Існує також дуже важливий аспект безпеки та етики
Ось деякі технічні деталі Sora
- Sora – це велика мовна модель, навчена на великому наборі даних тексту та коду.
- Модель може генерувати відео різної тривалості, роздільної здатності та співвідношення сторін.
- Вона також може отримувати підказки з текстом або зображеннями для створення відео.
- Вона також може продовжувати відео (з початку або з кінця) і створювати відео-цикли.
- Вона може послідовно створювати кілька сцен одного і того ж відео.
- Дослідники вважають, що це перспективний підхід для розробки універсальних симуляторів фізичного світу.
- 3D послідовність – Sora може генерувати відео з динамічним рухом камери. Коли камера зміщується та обертається, люди та елементи сцени послідовно рухаються у тривимірному просторі.
- Довготривала узгодженість і постійність об’єктів – значним викликом для систем генерації відео було збереження часової узгодженості при вибірці довгих відео. Sora часто, хоча і не завжди, здатна ефективно моделювати як короткострокові, так і довгострокові залежності. Наприклад, наша модель може зберігати людей, тварин і об’єкти, навіть коли вони закриті або виходять з кадру. Так само вона може генерувати кілька кадрів одного і того ж персонажа в одному зразку, зберігаючи його зовнішній вигляд протягом усього відео.
- Взаємодія зі світом – іноді Sora може імітувати дії, які впливають на стан світу простими способами. Наприклад, художник може залишати на полотні нові мазки, які зберігаються з часом, або людина може з’їсти бургер і залишити сліди від укусів.
- Імітація цифрових світів – Sora також здатна імітувати штучні процеси, наприклад, відеоігри. Sora може одночасно керувати гравцем у Minecraft за допомогою базової політики, а також відтворювати світ і його динаміку з високою точністю. Ці можливості можна викликати без жодного пострілу, підказуючи Сорі підписи, що згадують “Minecraft”.
Що таке Sora в плані недоліків?
Звісно, є й деякі потенційні недоліки, які варто враховувати. З великою силою приходить велика відповідальність, як мудро сказав дядько Бен. У поганих руках Sora може бути використана для створення фейків, які можуть підірвати нашу довіру до реальності. Але, як і з будь-якою іншою потужною технологією, ми повинні використовувати її відповідально та етично.
Джерело: https://uxpsyche.medium.com/