С повече от 4000 споделяния, 20 000 коментара и 100 000 реакции във Facebook, снимката на възрастната жена, седнала зад домашно приготвената си торта за 122-я рожден ден, стана едно от големите събития в социалните мрежи от последните дни.
„Започнах да декорирам торти на петгодишна възраст“, гласи надписът, съпровождащ снимката, „и нямам търпение да продължа моето пътешествие в сладкарството.“
Изображението на жената е доказано фалшиво. Едно от нещата, които я издават, е свещ върху тортата, която сякаш се носи във въздуха, пише в своя статия британският The Guardian.
Към момента можем дори и с просто око да различим един фалшификат (deepfake), но генеративният изкуствен интелект става все по-добър и видимите белези за различаване на автентични от манипулирани образи все повече ще изчезват и ще бъдат заличавани.
Така се стига до надпревара с времето и до въпроса: способни ли сме да разработим нови начини за разпознаване на фалшификати, преди самите те да станат неразличими от реалността?
„Времето ни изтича и скоро няма да можем да различаваме манипулациите с просто око“, казва Майк Спиърс, представител на компания, занимаваща се с изкуствен интелект. Спиърс ръководи работата на компанията по противодействието на дезинформацията.
„Моделите се развиват със скорост и темпо, които са невероятни от техническа гледна точка и това е доста тревожно“, допълва той.
„Има всякакви „ръчни“ техники за разпознаване на фалшиви изображения – от грешно изписани думи до неестествено гладка или набръчкана кожа или замъглени места на образа. Днес все още лесно можем да разпознаем фалшификат най-вече по движението на очите, ако е видео или по ръцете. Но дори и днес това отнема много време. А времето изтича – моделите стават все по-добри и по-добри“, обяснява Спиърс.
От 2021 г. генераторът на изображения на OpenAI – Dall-E, пусна три версии, всяка радикално по-способна от предходната. Индийският конкурент Midjourney пусна шест версии за същия период, докато безплатният модел Stable Diffusion с отворен код достигна третата си версия.
Тъй като технологията става все по-мощна, тя вече е и по-достъпна и по-лесна за използване. Най-новата версия на Dall-E е вградена в ChatGPT и Bing, докато Google предлага свои собствени инструменти безплатно на потребителите.
Технологичните компании вече предприеха действия срещу големия поток от инструменти за генериране на съдържание. Така бе създадена Коалицията за произход и автентичност на съдържанието, в която членуват гиганти като BBC, Google, Microsoft и Sony. Организацията създаде стандарти за отбелязване с „воден знак“ и етикетиране на генерирани образи, видео и аудио, а през февруари OpenAI обяви, че ще ги внедри в третата версия на Dall-E.
Това дава възможност на генерираните образи да бъдат различими и обозначени като такива. В допълнение Meta започна да добавя свои собствени етикети към генерирано от AI съдържание и предупреди, че ще премахва публикации, които не са етикетирани.
Тези политики могат да помогнат за справяне с някои от най-опасните форми на дезинформация. Но те също могат да създадат фалшиво усещане за сигурност, предупреждава Спайърс.
„Ако обществеността свикне да вижда генерирани от AI изображения с воден знак, това означава ли, че имплицитно ще се доверява на всички без воден знак?“, пита той.
В същото време поставянето на етикети или „воден знак“ е пожелателна мярка, с която стартъп компании, като например Midjourney, не могат да се съобразят – заради липса на капацитет или заради нежелание. А за проекти с „отворен код“, като Stable Diffusion, е невъзможно задължителното използване на воден знак, тъй като технологията има опцията да се „разклонява“, като позволява на потребителите да създават своя собствена.
„Поставянето на „воден знак“ не е задължително да има ефекта, който бихте искали“, казва Хенри Паркър, ръководител в групата за проверка на фактите Logically.
Компанията използва както ръчни, така и автоматизирани методи за проверка на съдържанието.
„Ако кажете на някого, че гледа фалшифицирано видео, преди дори да го е гледал, психологията на гледането и възприемането на това видео е толкова мощна, че хората пак ще го споменават, сякаш то пресъздава реални факти. Така че единственото нещо, което можем да направим, е да отговорим на въпроса как да намалим времето, през което тези генерирани видеа и образи са в обращение“, пояснява Паркър.
Това означава да има автоматизирани методи, които да засичат и премахват изкуствено генерирано съдържание, което, в крайна сметка, е много трудно.
„От близо пет години работим по този въпрос, като сме успели да постигнем около 70% точност при проверката на фалшификати“, допълва той.
В краткосрочен план основният проблем е в „надпреварата във въоръжаването“ между технологиите за създаване на deepfake и технологиите за откриването им. Дори генераторите на изображения, които нямат зловредни намерения, ще искат да се опитат да надхитрят детекторите, тъй като крайната цел е да се създаде една нова и максимално доближаваща се до реалността снимка.
По този въпрос обаче има и оптимисти.
Бен Колман, главен изпълнителен директор на стартиращата компания за откриване на изображения Reality Defender, смята, че винаги ще има възможност за разкриване на фалшификатите, дори и с прост инструмент като маркирането на съдържание. Според него има технически възможности, които винаги ще могат да „засекат“ неестествено оформяне на даден образ, до това например да се засече дали човекът, който говори на видеото всъщност има пулс и дали във вените му тече кръв.
Вече са разработени подобни технологии, които засичат подобни биоиндикатори.
„Нещата ще продължат да напредват откъм технологиите за фалшифициран, но реалностите не се променят“, заключава Колман. „Ние вярваме, че ще се доближим до един модел, който ще бъде универсален“, допълва той.
Технологиите са само част от решението за противодействие на фалшивите мултимедии. Ако хората наистина вярват в снимка със 122-годишна жена с торта, която сама тя е изпекла, тогава няма да са необходими генератори на фалшиви образи, за да ги подмамят и да ги накарат да вярват и в други неща.