ChatGPT a nové funkce živého sledování fotoaparátu a obrazovky v hlasovém režimu – užitečná novinka i pro uživatele se zrakovým postižením (1. část)

Uživatelům předplacené verze aplikace ChatGPT byla před pár dny zpřístupněna dlouho očekávaná funkce živého sdílení videa a obrazovky při spuštěném hlasovém režimu. Tato novinka nabízí uživatelům se zrakovým postižením bohaté využití v různých oblastech. V této dvoudílné sérii článků se dozvíte, jak hlasový režim společně s novými funkcemi ovládat a k čemu všemu se dá v praxi využít. První díl bude zaměřen na obecný popis hlasového režimu a sdílení fotoaparátu, druhý díl pak na sdílení obrazovky.

Prozatím jen pro předplatitele

Funkce sdílení obrazovky a fotoaparátu v hlasovém režimu byla představena na podzim roku 2024, v prvních měsících však byla dostupná pouze ve Spojených státech. Nyní se po dlouhém čekání dočkali také předplatitelé ChatGPT Plus a ChatGPT pro v České republice. Pro uživatele bezplatné verze je zatím dostupný pouze hlasový režim, nikoli však s novými funkcemi.

Hlasový režim v ChatGPT

Hlasové ovládání aplikace jako takové žádnou novinkou není. Tato funkce spočívá v tom, že s ChatGPT je na smartphone možné komunikovat zcela bez použití klávesnice. Stačí spustit tlačítko hlasového ovládání, které se nachází v pravém dolním rohu obrazovky, načež se umělé inteligence můžete ptát prakticky na cokoliv (více o používání aplikace ChatGPT se dozvíte například v mé dřívější sérii věnované praktickému použití ChatGPT). Odpovědi se vám přitom dostane v češtině, resp. V jazyce, který při komunikaci používáte.

Na výběr máte v současné době mezi 9 syntetickými mužskými i ženskými hlasy, které jsou univerzální pro všechny jazyky. Hlas se tedy jazyku konverzace jednoduše přizpůsobí, v případě češtiny se však občas může stát, že bude některá slova mírně komolit nebo vyslovovat s přízvukem. Problémy ale nejsou natolik zásadní, aby komunikaci v češtině znemožňovaly.

Výběr hlasu jde provést v hlasovém režimu stiskem tlačítka „vyber hlas,“ které se nachází v pravém horním rohu. Mezi hlasy je možné posouvat se šviháním nahoru a dolů, přičemž se zároveň přehraje ukázka daného hlasu. Až budeme s volbou hlasu spokojeni, stačí aktuální položku potvrdit tlačítkem „zahájit nový chat“.

Živá interakce pomocí kamery

Skutečným důvodem, proč nyní hlasové ovládání ChatGPT  stojí za vyzkoušení, jsou však dvě nové funkce – živá interakce pomocí zapnuté kamery fotoaparátu a živé sledování obrazovky. Obě tyto funkce jsem otestovala na zařízení s operačním systémem iOS, pro Android by vše mělo probíhat podobně. .

Funkce se spouští tlačítkem „Otevřít fotoaparát,“ které vidící uživatelé mohou najít v levém dolním rohu aplikace. Po stisku se zobrazí obrazovka fotoaparátu, který začne zadní kamerou snímat okolí. Funkce spočívá v tom, že zatímco ChatGPT fotoaparátem snímá vaše okolí, můžete se ho v reálném čase na cokoliv doptávat.

Umělá inteligence vám tedy ihned dokáže popsat, co se nachází kolem vás, najít určitý předmět, a to včetně např. barvy, struktury nebo dalších detailů. Poměrně správně dokáže určit také orientaci předmětů v prostoru a pomocí pokynů vás k tomuto předmětu navigovat.  Nesmíme zapomínat na to, že vše probíhá v reálném čase, takže je nutné s umělou inteligencí komunikovat opakovaně , resp. Pokaždé, kdy se scéna na fotoaparátu změní. Není to tak, že by změny aplikace hlásila automaticky, ale je nutné se na každou změnu opětovně dotázat.

Využití při navigaci, popisu předmětů i čtení

Během základního testování mě aplikace dokázala odnavigovat ke dveřím, nalézt hrnek s čajem nebo mi detailně popsat obrazy visící na stěně a jiné dekorace. Zatímco při navigaci byl ChatGPT občas nepřesný, a to především s ohledem na zmatečné pokyny způsobené živým sledováním fotoaparátu, při více „stabilních“ úkolech jako popis interiéru nebo konkrétních předmětů dosahoval velmi uspokojivých výsledků srovnatelných např. s funkcí Be My AI dostupnou v aplikaci Be my Eyes. Oproti zmiňované aplikaci však úkoly plní prakticky ihned a interakce se podobá běžné mezilidské komunikaci.

Horších výsledků pak ChatGPT dosahoval při praktických úkolech, kdy jsem po aplikaci požadovala např. zhodnocení, zda dvě ponožky patří do páru. V takových situacích si umělá inteligence občas i zcela vymýšlela.

Druhým problémem pak bylo čtení textu, čehož je aplikace schopná i při živém snímání obrazovky, avšak s menší přesností než např. při popisu statické fotografie. Zde si člověk musí vlastnoručně ověřit, že pro čtení textu panují příznivé podmínky a dostatečně text přiblížit. Když je text pro čtení připraven, odvede aplikace obvyklou kvalitní práci a rovnou jej dokáže např. přeložit nebo popsat i jeho grafickou stránku, v opačném případě však pouze zahlásí, že žádný text nerozpoznal nebo že se na obrazovce nenachází, aniž by dal bližší pokyny, jak fotoaparát natočit apod.

Zamyšlení do budoucna

Efektivnější používání této funkce komplikuje i to, že člověk musí mít neustále v jedné ruce telefon, což může práci s aplikací v některých situacích ztěžovat. Dokážu si však představit, že by integrace této či obdobné funkce do chytrých brýlí nebo navigačních systémů pro lidi se zrakovým postižením vytvořila novou a revoluční kompenzační pomůcku usnadňující nejen orientaci v prostoru, ale i běžné aktivity jako vaření, uklízení, zařizování bytu, nákup potravin či oblečení nebo např. návštěvy muzeí či galerií.

Pokud jste předplatiteli ChatGPT, doporučuji novou funkci vyzkoušet a uvážit dle vlastních zkušeností, zda by v praxi našla své uplatnění. Za mě se jedná o další krok vpřed na poli využití umělé inteligence jako kompenzační pomůcky a jsem zvědavá, co tato funkce do budoucna přinese.



ChatGPT


Pavlína Soušková
Jmenuji se Pavlína Soušková. V 5 letech mi byla diagnostikována Stargardtova nemoc, což je juvenilní forma makulární degenerace. Ve zkratce to znamená, že postupně přicházím o zrak a v současné době jsem prakticky nevidomá. Mám jenom malé procento periferního vidění,...