A D-ID, egy izraeli technológiai startup, „hipervalóságos AI-előadókra” specializálódott. Annyi szöveget írsz be, amennyit csak akarsz, és ő úgy fogja előadni, mint egy valódi személy, de a költség töredékéért, mintha felbérelnél egyet.
Egy élő színész egy stúdióban, operatőrrel, fényekkel és hangfelvétellel 1000 dollárba kerülne percenként. Az avatárok vonzó és megfizethető alternatívát jelentenek.
Bárki, aki elszenvedett már egy „halál a Powerpoint által” prezentációt a biztonságról, a megfelelésről vagy egy új vállalati kezdeményezésről, elmondhatja, hogy egy emberi – vagy közel emberi – előadó nagyobb valószínűséggel tartja ébren az embert, mint egy még újabb grafikon, fénykép vagy folyamatábra.
„Egy emberi arc nagyobb valószínűséggel kelti fel az érdeklődést, nagyobb valószínűséggel nézik meg a videót, fejezik be a tanfolyamot, és szívják magukba az információt” –
mondta Gil Perry, a D-ID vezérigazgatója és társalapítója a NoCamelsnek.
„A mi technológiánk egycsapásra elmulasztja a vállalati videókészítéssel járó fejfájást, egyetlen gombnyomással, könnyedén készíthet kiváló minőségű, költséghatékony, professzionális videókat bármilyen nyelven.”
A D-ID olyan technológiát fejlesztett ki, amely lehetővé teszi ügyfelei számára, hogy gyorsan, olcsón és hatékonyan készítsenek avatár szereplős oktatóvideókat.
Jenny mellett egy egész „színészgárda” áll rendelkezésére – válassza ki, hogy melyiket szeretné, majd válasszon a 270 hang, 119 nyelv és számos akcentus közül.
Még előadásmódok is vannak – dühös, vidám, szomorú, izgatott, reménykedő, ügyfélszolgálati, híradós.
A cég – amelyet 2017-ben alapított az IDF hírszerző alakulat három veteránja – az arcfelismeréssel kezdte a pályafutását, algoritmusok segítségével „azonosíthatatlanították” a fényképeket (innen a D-ID elnevezés) apró módosításokkal, hogy azok az emberek számára felismerhetőek maradjanak, de a Facebook és sok más cég által használt biometrikus olvasókat becsapják.
A tel-avivi székhelyű vállalat világelső lett a mélytanulás, a számítógépes látás, a képfeldolgozás és a számítógépes fotózás területén.
Aztán rájöttek, hogy az általuk kifejlesztett technológiát máshol is lehetne alkalmazni – narrált tartalmak létrehozására.
„Radikálisan csökkenthetjük a videoprodukciók költségeit, növelhetjük a meglévő unalmas eszközeik értékét, és méretarányosan személyre szabott és célzott tartalmakat készíthetünk”
– mondja Perry.
„A legnagyobb probléma a befejezési arány. Az emberek egyszerűen nem nézik meg. Nem olvassák el az összes anyagot a beszállásról, a kiberjogszabályok betartásáról, a szexuális zaklatásról. Csak megnyomják a következő, a következő, a következő, a következő gombot, hogy mielőbb túllegyenek rajta, és befejezzék a tanfolyamot.
„Elsősorban a nagyobb vállalatok vállalati képzési, tanulási és fejlesztési részlegeinek adunk el. Segítünk nekik abban, hogy vonzóbb tartalmakat készítsenek, amelyeket jobban megértenek és jobban megjegyeznek”.”
„Gyakran előfordul, hogy a videókban előadóként megjelenő vezetők egyszerűen nem jó előadók. Az alkalmazottak pedig kényelmetlenül érzik magukat, ha nézik őket.”
Az emberek helyett az avatarok használatának egyik előnye, hogy sokkal könnyebb frissíteni ,vagy kiegészíteni a forgatókönyvet. Azzal, hogy Jennynek több szöveget adunk felolvasásra, még mindig jobb, mintha újra felbérelnénk egy színészt, egy stábot és egy stúdiót.
„A D-ID munkája már több mint 100 millió videót generált”
– mondja Perry. A vállalat most a Creative Reality platformjának önkiszolgáló változatát kínálja kisebb cégeknek, és azt mondja, hogy a növekedési potenciál óriási.
Szigorú irányelvekkel akadályozza meg a technológiával való visszaélést, és biztosítja, hogy minden videóján megjelenjen egy AI szimbólum, amely jelzi, hogy számítógépes generációról van szó.
A vállalati oktatóvideókon kívül a 45 alkalmazottat foglalkoztató és 47 millió dollárt befektetőktől összegyűjtött D-ID további felhasználási lehetőségeket talál a gyakorlatilag korlátlanul skálázható technológiának.
Az egyik ügyfélvállalat vezérigazgatója képes volt személyre szabott videót küldeni minden előfizetőjének – jóval több mint 100 milliónak -, amely mind más és más, és mind név szerint szólítja meg az előfizetőt, egyetlen állókép alapján.
A jövő még több lehetőséget kínál.
„Most dolgozunk a valós idejű streamelésen”
– mondja Perry.
„Tehát lehet majd videohívásokat bonyolítani, de kamera nélkül. Lehet, hogy a konyhában mosogatok vagy a tengerparton vagyok, de közben képes leszek kiválasztani egy jobb képet magamról, és a kamera kikapcsolásával megjelenni a képernyőn.”
Ezt a cikket szerkesztőségünk az ünnep bejövetele előtt készítette, és előre időzítve jelent meg az oldalon.