Генеративний штучний інтелект

Не плутати з Сильний штучний інтелект.

Генерати́вний шту́чний і́нтелект (генерати́вний ШІ^[1], англ. generative artificial intelligence, generative AI, GenAI^[2]), також поро́джувальний шту́чний інтеле́кт^[3] — це штучний інтелект, здатний генерувати текст, зображення або інші медіа, використовуючи породжувальні моделі.^[4]^[5]^[6] Породжувальні моделі ШІ навчаються взірців та структури своїх вхідних тренувальних даних і потім породжують нові дані, що мають подібні характеристики.^[7]^[8]

На початку 2020-х років прогрес у глибоких нейронних мережах на основі трансформерів уможливив створення низки видатних систем породжувального ШІ, які приймають на вході підказки природною мовою. До них належать чат-боти великих мовних моделей (ВММ), як-от ChatGPT, Copilot, Bard і LLaMA, а також системи живопису на основі штучного інтелекту для зображення за текстом^[en], як-от Stable Diffusion, Midjourney та DALL-E.^[9]^[10]^[11]

Генеративний ШІ застосовують у широкому спектрі галузей, включно з живописом, письменництвом, написанням сценаріїв, розробкою програмного забезпечення, дизайном продуктів, охороною здоров'я, фінансами, іграми, маркетингом та модою.^[12]^[13]^[14] Інвестиції у генеративний ШІ різко зросли на початку 2020-х років, коли великі компанії, як-от Microsoft, Google та Baidu, а також численні менші фірми розробляли моделі породжувального ШІ.^[4]^[15]^[16] Проте існують також занепокоєння щодо потенційного неправильного використання породжувального ШІ, включно із кіберзлочинністю, створенням фейкових новин чи дипфейків, які можуть використовувати для обману чи маніпулювання людьми.^[17]^[18]

Історія

Докладніше: Історія штучного інтелекту

Академічну дисципліну штучного інтелекту заснували на дослідницькому семінарі^[en] в Дартмутському коледжі 1956 року, і вона пережила кілька хвиль розвитку та оптимізму протягом наступних десятиліть.^[19] З моменту її зародження дослідники у цій галузі порушували філософські та етичні аргументи щодо природи людського розуму та наслідків створення штучних істот із людським інтелектом; ці питання раніше досліджували у міфах, фантастиці^[en] та філософії з античних часів.^[20] Концепція автоматизованого мистецтва сходить щонайменше до автоматонів давньогрецької цивілізації, де винахідників, таких як Дедал та Герон Александрійський, описували як розробників машин, здатних писати текст, створювати звуки та грати музику.^[21]^[22] Традиція творчих автоматонів процвітала протягом історії, прикладом чого є створення на початку 1800-х років автоматона Майярде^[en].^[23]

Штучний інтелект — це ідея, яка захоплювала суспільство з середини 20 століття. Це почалося з того, що наукова фантастика познайомила світ із цією концепцією, але цю ідею не було повністю розглянуто в науковому ключі, доки Алан Тюрінг, ерудит, не зацікавився її здійсненністю. Новаторська стаття Тюрінга 1950 року «Обчислювальні машини та інтелект^[en]» поставила основоположні питання про машинне міркування, подібне до людського інтелекту, зробивши значний внесок до концептуальної основи ШІ. Розвиток ШІ спершу не був дуже швидким через високу вартість і той факт, що комп'ютери не могли зберігати команди. Ситуація змінилася під час Дартмутського літнього дослідницького проєкту з ШІ^[en] 1956 року, де пролунав надихаючий заклик до дослідження ШІ, що зробило його знаковою подією, оскільки створило прецедент для двох десятиліть швидкого просування в цій галузі.^[24]

З часу заснування ШІ у 1950-х роках художники та дослідники використовували штучний інтелект для створення художніх творів. На початку 1970-х років Гарольд Коен^[en] створював та виставляв роботи породжувального ШІ, які створювала AARON^[en], комп'ютерна програма, створена Коеном для породжування картин.^[25]

Ланцюги Маркова давно використовують для моделювання природних мов з часу їх розробки російським математиком Андрієм Марковим на початку XX століття. Марков опублікував свою першу статтю на цю тему 1906 року,^[26]^[27]^[28] проаналізувавши схему голосних і приголосних у романі «Євгеній Онєгін», використовуючи ланцюги Маркова. Щойно ланцюга Маркова навчено на текстовому корпусі, його можливо використовувати як імовірнісний породжувач тексту.^[29]^[30]

Галузь машинного навчання часто використовує статистичні моделі, включно з породжувальними моделями, для моделювання та передбачування даних. Починаючи з кінця 2000-х років, поява глибокого навчання сприяла прогресу та дослідженням у класифікуванні зображень, розпізнаванні мовлення, обробці природної мови та інших завданнях. Нейронні мережі цієї епохи зазвичай тренували як розрізнювальні моделі, через складність породжувального моделювання.^[31]

2014 року такі досягнення як варіаційний автокодувальник та породжувальна змагальна мережа створили перші практичні глибокі нейронні мережі, здатні навчатися породжувальних моделей, а не розрізнювальних, для складних даних, таких як зображення. Ці глибокі породжувальні моделі були першими, які виводили не лише мітки класів для зображень, але й цілі зображення.

2017 року мережа Трансформер уможливила поступ у породжувальних моделях, порівняно зі старішими моделями довгої короткочасної пам'яті,^[32] що призвело до створення 2018 року першого породжувального попередньо натренованого трансформера (англ. generative pre-trained transformer, GPT), відомого як GPT-1^[en].^[33] Це продовжив 2019 року GPT-2, який продемонстрував здатність узагальнювати некероване навчання для багатьох різних завдань як модель-основа^[en].^[34]

2021 року випуск DALL-E, піксельної породжувальної моделі на основі трансформера, за якою вийшли Midjourney та Stable Diffusion, позначив появу практичного високоякісного живопису на основі штучного інтелекту за підказками природною мовою.

У березні 2023 року було випущено GPT-4. Команда з Microsoft Research стверджувала, що «його можливо обґрунтовано розглядати як ранню (але все ще неповну) версію системи сильного штучного інтелекту (СШІ)».^[35] Інші вчені оспорювали, що GPT-4 досягає цього порогу, називаючи генеративний ШІ «ще далеким від досягнення еталону „загального людського інтелекту“» станом на 2023 рік.^[36]

Модальності

Систему породжувального ШІ створюють, застосовуючи до набору даних некероване або самокероване машинне навчання. Можливості системи породжувального ШІ залежать від модальності чи типу використаного набору даних.

Генеративний ШІ може бути як унімодальним (одномодальним, англ. unimodal), так і мультимодальним^[en] (багатомодальним, англ. multimodal); унімодальні системи приймають лише один тип даних входу, тоді як багатомодальні системи можуть приймати понад один тип даних входу.^[37] Наприклад, одна з версій GPT-4 від OpenAI приймає на вході як текст, так і зображення.^[38]

Текст

До систем породжувального ШІ, тренованих на словах або словесних токенах, належать GPT-3, LaMDA, LLaMA, BLOOM^[en], GPT-4 та інші (див. перелік великих мовних моделей^[en]). Вони здатні до обробки природної мови, машинного перекладу та породжування природної мови, і їх можливо використовуватися як моделі-основи^[en] для інших завдань.^[39] До наборів даних належать BookCorpus^[en], Вікіпедія та інші (див. перелік текстових корпусів^[en]).

Код

Окрім тексту природними мовами, великі мовні моделі можливо тренувати на текстах мовами програмування, що дозволяє їм породжувати первинний код для нових комп'ютерних програм.^[40] До прикладів належить OpenAI Codex^[en].

Зображення

Див. також: Живопис на основі штучного інтелекту

Видатним застосуванням породжувального ШІ є створення високоякісного образотворчого мистецтва.^[41] Багато таких художніх робіт отримали громадські нагороди та визнання.

До систем породжувального ШІ, натренованих на наборах зображень із текстовими підписами^[en], належать Imagen, DALL-E, Midjourney, Adobe Firefly(інші мови), Stable Diffusion та інші (див. живопис на основі штучного інтелекту, породжувальне мистецтво, та синтетичні медіа^[en]). Їх зазвичай використовують для породжування зображень за текстом^[en] та нейронного перенесення стилю^[en].^[42] До наборів даних належать LAION-5B^[en] та інші (див. перелік наборів даних у комп'ютернім баченні та обробці зображень^[en]).

Звук

Генеративний ШІ також можливо широко навчати на звукових кліпах, щоби створювати синтез мовлення з природним звучанням і можливості перетворення тексту в мовлення, прикладами яких є інструменти контекстного синтезу ElevenLabs^[en], та Voicebox від Meta Platforms.^[43]

Породжена ШІ музика з сервера Riffusion Inference, за підказкою bossa nova with electric guitar (укр. босанова з електрогітарою)

Системи породжувального ШІ, такі як MusicLM^[en]^[44] та MusicGen,^[45] можливо також тренувати на формах хвиль звуку записаної музики разом з текстовими анотаціями, щоби породжувати нові музичні зразки на основі текстових описів, таких як заспокійлива скрипкова мелодія з гітарним рифом з дисторшном на тлі.

Відео

Runway Gen2, підказка A golden retriever in a suit sitting at a podium giving a speech to the white house press corps (укр. золотистий ретривер у костюмі, сидячи за трибуною, виголошує промову прес-корпусу Білого дому)

Генеративний ШІ, натренований на анотованому відео, може породжувати часово узгоджені відеокліпи. До прикладів належать Gen-1 та Gen-2 від Runway^[en]^[46] та Make-A-Video від Meta Platforms.^[47]

Молекули

Системи породжувального ШІ можливо тренувати на послідовностях амінокислот або молекулярних поданнях, таких як SMILES, що подають ДНК або білки. Такі системи як AlphaFold^[en] використовують для передбачування структури білків та пошук нових ліків^[en].^[48] До наборів даних належать різноманітні біологічні набори даних^[en].

Робототехніка

Генеративний ШІ також можливо тренувати на рухах робототехнічної системи, щоби породжувати нові траєкторії для планування руху або навігації^[en]. Наприклад, UniPi від Google Research для керування рухами роботизованої руки використовує підказки на кшталт «підніми синю миску» та «витри тарілку жовтою губкою».^[49] Мультимодальні моделі «бачення-мова-дія» (англ. "vision-language-action"), такі як RT-2 від Google, можуть виконувати елементарне міркування у відповідь на підказки користувача та візуальні вхідні дані, наприклад, підіймаючи іграшкового динозавра, коли дано підказку підніми вимерлу тварину, зі столу, заповненого іграшковими тваринами та іншими об'єктами.^[50]

Планування

Терміни планува́ння поро́джувальним ШІ (англ. generative AI planning) та поро́джувальне планува́ння (англ. generative planning) використовували в 1980-х та 1990-х роках для позначування систем планування штучним інтелектом, особливо систем автоматизованого проєктування процесів, які використовували для породжування послідовностей дій задля досягнення визначеної мети.^[51]^[52]

Системи планування породжувальним ШІ використовували методи символьного ШІ^[en], такі як пошук простором станів^[en] та виконання обмежень^[en], і були «відносно зрілою» технологією на початку 1990-х років. Їх використовували для породжування планів дій у кризових ситуаціях для військового використання,^[53] планів процесів для виробництва^[51] та планів рішень, як у прототипах автономних космічних апаратів.^[54]

Бізнесова аналітика

У нещодавніх розробках у галузі породжувального штучного інтелекту як помітне застосування з'явилося поняття «породжувальної бізнесової аналітики (БА)» (англ. "Generative Business Intelligence (BI)").^[55] Породжувальна БА означає використання методик породжувального штучного інтелекту для покращення бізнесової та іншої аналітики, що забезпечує поглибленіші інтерпретування даних та процеси вирішування. Цей підхід використовує породжувальні можливості ШІ для моделювання потенційних бізнесових сценаріїв і результатів, надаючи цінне розуміння для стратегічного планування.

Програмне та апаратне забезпечення

Моделі породжувального ШІ використовують для забезпечення роботи чат-ботових продуктів, як-от ChatGPT, інструментів програмування, як-от GitHub Copilot,^[56] продуктів зображення за текстом^[en], як-от Midjourney, та продуктів відео за текстом, як-от Runway^[en] Gen-2.^[57] Функції породжувального ШІ інтегрували в різноманітні наявні комерційно доступні продукти, як-от Microsoft Office,^[58] Google Фото,^[59] та Adobe Photoshop.^[60] Багато моделей породжувального ШІ також доступні як відкрите програмне забезпечення, включно зі Stable Diffusion та мовною моделлю LLaMA.^[61]

Менші моделі породжувального ШІ з кількістю параметрів до декількох мільярдів можуть працювати на смартфонах, вбудованих пристроях та персональних комп'ютерах. Наприклад, LLaMA-7B (версія з 7 мільярдами параметрів) може працювати на Raspberry Pi 4^[en],^[62] а одна версія Stable Diffusion може працювати на iPhone 11.^[63]

Більші моделі з десятками мільярдів параметрів можуть працювати на ноутбуках та настільних комп'ютерах. Для досягнення прийнятної швидкості моделі такого розміру можуть вимагати прискорювачів, таких як мікросхеми ГП, вироблені Nvidia та AMD, або Neural Engine, включений до продуктів Apple silicon. Наприклад, версію LLaMA з 65 мільярдами параметрів можливо налаштувати для роботи на настільному ПК.^[64]

Мовні моделі з сотнями мільярдів параметрів, такі як GPT-4 та PaLM^[en], зазвичай працюють на комп'ютерах центрів обробки даних, оснащених масивами ГП (такими як H100 від Nvidia) або мікросхемами ШІ-прискорювачів (такими як ТП від Google). Ці дуже великі моделі зазвичай доступні як хмарні послуги через Інтернет.

2022 року новий експортний контроль США з передових обчислень та напівпровідників до Китаю^[en] запровадив обмеження на експорт до Китаю мікросхем ГП та ШІ-прискорювачів, які використовують для породжувального ШІ.^[65] З урахуванням вимог цих санкцій було розроблено такі мікросхеми як Nvidia A800^[66] та Biren Technology^[en] BR104^[67].

На ринку є безкоштовне програмне забезпечення, здатне розпізнавати текст, породжений породжувальним штучним інтелектом (таке як GPTZero), а також зображення, аудіо чи відео походженням з нього.^[68]

Занепокоєння

Див. також: Етика штучного інтелекту та [[Екзистенційний ризик від сильного штучного інтелекту^[en]]]

Вплив ШІ на численні галузі був глибоким, революціонізувавши продуктивність, процеси вирішування й враження клієнтів. Проте на тлі цього прогресу з'явилися виклики й проблеми.

Розвиток породжувального ШІ викликав занепокоєння урядів, бізнесу та окремих осіб, що призвело до протестів, судових позовів, закликів до паузи в експериментах з ШІ^[en] та дій з боку багатьох урядів. На брифінгу Ради Безпеки ООН у липні 2023 року генеральний секретар ООН Антоніу Гутерреш заявив: «Генеративний ШІ має величезний потенціал для добра та зла у великих масштабах», що ШІ може «підсилити глобальний розвиток» та додати від 10 до 15 трильйонів доларів до глобальної економіки до 2030 року, але його зловмисне використання «може спричинити жахливі рівні смерті та руйнувань, широкомасштабну травму та глибокі психологічні ураження на неймовірному рівні».^[69]

Втрати робочих місць

Докладніше: Вплив штучного інтелекту на робочому місці^[en] та Технологічне безробіття

Ще з ранніх днів розвитку ШІ творець ELIZA Джозеф Вейценбаум та інші висунули аргументи щодо того, чи завдання, які можуть виконувати комп'ютери, насправді повинні виконуватися ними, враховуючи різницю між комп'ютерами та людьми, а також між кількісними розрахунками та якісними, ціннісними судженнями.^[71] У квітні 2023 року було повідомлено, що ШІ для породжування зображень призвів до втрати 70 % робочих місць ілюстраторів відеоігор у Китаї.^[72]^[73] У липні 2023 року розвиток породжувального ШІ посприяв трудовим спорам у Голлівуді. Френ Дрешер, президентка Гільдії кіноакторів США, під час страйку SAG-AFTRA 2023 року заявила, що «штучний інтелект становить екзистенційну загрозу для творчих професій».^[74] ШІ породжування голосу розглядають як потенційний виклик для сектору озвучування.^[75]^[76]

Важливим аспектом в усьому світі залишається взаємозв’язок штучного інтелекту та проблем зайнятості серед малопредставлених груп. Незважаючи на те, що штучний інтелект обіцяє підвищення ефективності та набуття навичок, серед цих груп, як зазначено в опитуваннях Fast Company^[en], зберігається занепокоєння щодо звільнень та упередженості найму. Щоби використовувати ШІ для справедливішого суспільства, проактивні кроки охоплюють пом'якшування упереджень, підтримування прозорості, повагу до конфіденційності та згоди, а також залучення різних команд і етичних міркувань. Стратегії передбачають перенаправлення політичного акценту на регулювання, інклюзивний дизайн та освітній потенціал для персоналізованого викладання, щоби максимізувати користь і мінімізувати шкоду.^[77]

Фінанси

У фінансовій сфері значні інвестиційні сплески, як підкреслював у дискусіях Дарон Аджемоглу, призвели до перетворювальних інструментів, таких як робоконсультанти, що змінили традиційні фінансові практики. Застереження Аджемоглу щодо потенційних несприятливих суспільних наслідків, спричинених ШІ, зокрема, у збиранні даних, маніпулюванні клієнтами та розбіжностях на ринку праці, підкреслюють складність впливу ШІ на суспільство.^[78]

Соціальні ідентичності

Інтегрування ШІ з соціальними ідентичностями, висвітлена Марчіном Фрацкевичіним, містить як обіцянки, так і виклики. Здатність ШІ трансформувати традиційні дослідницькі методи, розкриваючи тонкі залежності у сфері соціальної ідентичності, має величезний потенціал. Однак упередження, вкорінені в системах ШІ, зберігають стереотипи й маргіналізують групи, підкреслюючи критичну необхідність усунути ці упередження заради інклюзивності.^[79]

Дипфейки

Докладніше: Дипфейк

Дипфейки (від словозлиття англ. "deep learning" — глибоке навчання та англ. "fake" — підробка^[80]) — це медіа, створені за допомогою ШІ, які замінюють особу в наявному зображенні чи відео подобою іншої особи за допомогою штучних нейронних мереж.^[81] Дипфейки привернули широку увагу та занепокоєння через їх використання у дипфейкових порнографічних відео зі знаменитостями^[en], порнопомсті, фейкових новинах, містифікаціях та фінансових шахрайствах^[en].^[82]^[83]^[84]^[85] Це викликало реакцію з боку як промисловості, так і уряду для виявляння та обмеження їх використання.^[86]^[87]

Звукові дипфейки

Докладніше: Звуковий дипфейк^[en]

Випадки, коли користувачі зловживають програмним забезпеченням для породжування суперечливих заяв голосом знаменитостей, державних службовців та інших відомих людей, викликали етичні занепокоєння щодо ШІ породжування голосу.^[88]^[89]^[90]^[91]^[92]^[93] У відповідь такі компанії як ElevenLabs заявили, що працюватимуть над пом'якшенням потенційних зловживань за допомогою заходів безпеки та перевірок особи.^[94]

Концерни та фандоми виявилися заваленими породженою ШІ музикою. Те саме програмне забезпечення, яке використовували для клонування голосів, використали для голосів відомих музикантів, щоби створювати пісні, які імітують їхні голоси, що отримало як величезну популярність, так і критику.^[95]^[96]^[97] Подібні методики також використовували для створення покращеної якості або повнометражних версій пісень, які просочилися або ще не були випущені.^[98]

Генеративний ШІ також використовували для створення нових цифрових особистостей виконавців, причому деякі з них отримали достатньо уваги, щоб отримати контракти на звукозапис від великих лейблів.^[99] Розробники цих віртуальних виконавців також зіткнулися зі своєю часткою критики за їхні персоніфіковані програми, включно з негативною реакцією за «дегуманізацію» форми мистецтва, а також створення виконавців, які створюють нереалістичні або аморальні звернення до своєї аудиторії.^[100]

Кіберзлочинність

Здатність породжувального ШІ створювати реалістичний фальшивий вміст використовували в багатьох видах кіберзлочинності, включно з фішинговими аферами.^[101] Відео- та звукові дипфейки використовували для створення дезінформації та для шахраювання. Колишній цар шахрайства Google Шуман Госемаджумдер^[en] передбачив, що хоча спочатку відеодипфейки викликали сенсацію у ЗМІ, вони незабаром стануть буденними і, як наслідок, небезпечнішими.^[102] Крім того, великі мовні моделі та інші види ШІ породжування тексту широко застосовують для ствоерння фальшивих відгуків на вебсайтах електронної комерції з метою підвищення рейтингів.^[103] Кіберзлочинці створили великі мовні моделі, зосереджені на шахрайстві, включно з WormGPT та FraudGPT.^[104]

Нещодавнє дослідження, проведене 2023 року, показало, що генеративний ШІ має слабкості, якими злочинці можуть маніпулювати, щоби отримувати шкідливу інформацію в обхід етичних запобіжників. У цьому дослідженні наведено приклади атак на ChatGPT, включно з підвищенням привілеїв і зворотною психологією. Крім того, зловмисники можуть використовувати ChatGPT для атак з використанням соціальної інженерії та фішингу, розкриваючи шкідливий бік цих технологій.^[105]

Зловживання у журналістиці

У січні 2023 року Futurism.com опублікував новину про те, що CNET використовував нерозкритий внутрішній інструмент ШІ для написання принаймні 77 своїх статей; після цього розголосу CNET опублікував виправлення до 41 з цих статей.^[106]

У квітні 2023 року німецький таблоїд Die Aktuelle^[de] опублікував породжене ШІ фальшиве інтерв'ю з колишнім гонщиком Міхаелем Шумахером, який не з'являвся на публіці з 2013 року після отримання черепно-мозкової травми внаслідок падіння на лижах. У статті було два можливі роз'яснення: на обкладинці було написано «оманливо реально», а в кінці інтерв'ю було зазначено, що його створили за допомогою ШІ. Головного редактора невдовзі після цього скандалу звільнили.^[107]

Регулювання

Докладніше: Регулювання штучного інтелекту^[en]

В Європейському Союзі запропонований Закон про штучний інтелект включає вимоги розкривати захищені авторським правом матеріали, використані для тренування систем породжувального ШІ, та маркувати будь-який породжений ШІ вміст як такий.^[108]^[109]

У Сполучених Штатах група компаній, включно з OpenAI, Alphabet та Meta, підписали добровільну угоду з Білим домом у липні 2023 року, щоби маркувати створений ШІ вміст.^[110]

У Китаї Тимчасові заходи з управління послугами породжувального ШІ^[en], запроваджені Управлінням кібербезпеки Китаю^[en], регулюють будь-який публічний генеративний ШІ. Вони містять вимоги маркувати породжені зображення та відео, регулювання щодо тренувальних даних та якості міток, обмеження на збирання особистих даних, а також настанову, що генеративний ШІ повинен «дотримуватися основних соціалістичних цінностей».^[111]^[112]

Див. також

Сильний штучний інтелект
Штучна уява^[en]
Живопис на основі штучного інтелекту
Обчислювальна творчість^[en]
Породжувальна змагальна мережа
Генеративний попередньо натренований трансформер
Велика мовна модель
Музика та штучний інтелект^[en]
Процедурне породжування
Стохастичний папуга^[en]

Примітки

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]

Search