Be My Eyes už aj pre Windows

Be My Eyes (respektíve jej funkcia Be My AI) je dostupná už aj pre operačný systém Windows. Pomocou jednoduchých globálnych klávesových skratiek môžete využiť umelú inteligenciu na opis obrazovky, obrázku zo súboru alebo schránky.

Pre lepšiu predstavu porovnám Be My Eyes s doplnkom pre NVDA AI Content Describer.

Inštalácia a prvé spustenie

Aplikáciu nájdete štandardne v Microsoft Store. Je zadarmo, v tomto smere vás nič neprekvapí. Inštalovať z Microsoft Storu je niekedy cvičenie v trpezlivosti. Postupujte takto:

  • Vyhľadáte Microsoft Store cez ponuku Štart a na výsledku stlačíte Enter.
  • Stláčate Shift+Tab alebo Tab, kým nebudete počuť niečo ako „5 návrhov“. Znamená to, že ste našli editačné pole, do ktorého napíšete „Be My Eyes“ a potvrdíte Enterom.
  • Na karte s výsledkami stláčate Tab, kým nebudete počuť správny názov aplikácie a znova stlačíte Enter.
  • Otvorí sa detail Be My Eyes, tu je potrebné nájsť Tabulátorom tlačidlo Inštalovať alebo Získať a aktivovať ho.
  • Počkáte na dokončenie inštalácie, čo poznáte minimálne tak, že tlačídlo Získať či Inštalovať sa zmení na Otvorte. Ak ho aktivujete, dostanete sa priamo do aplikácie.

Pri prvom spustení sa ešte prihlásite, máte na výber niekoľko spôsobov, a môžete začať pracovať.

Oproti tomu AI Content Describer si vyžaduje oveľa viac času, trpezlivosti a aj používateľských skúseností na uvedenie do prevádzky.

Prostredie Be My Eyes

Je v slovenčine, ale strojovo preložené a je to vidno. Ale keďže ho väčšinu času nebudete potrebovať, až tak vám na tom nemusí záležať. Ak aplikáciu budete používať, uistite sa, že je spustená a minimalizovaná.

Skladá sa z dvoch záložiek:

  • Be My AI – tu nájdete 4 tlačidlá s jednotlivými funkciami. Upozorňujem, že je potrebné sa naučiť príslušné klávesové skratky, pretože najmä pri popisovaní obrazovky musí byť Be My Eyes minimalizovaná, inak vždy dostanete popis len jej okna.
  • Nastavenia – môžete pozmeniť klávesové skratky a povoliť alebo zakázať zvuky, prípadne sa odhlásiť. To je všetko.

V Be My Eyes sa medzi záložkami pohybujete šípkami doprava a doľava a Tabulátorom medzi ich jednotlivými položkami.

Ako to funguje?

Aplikácia využíva LLM (large language model – veľký jazykový model) ChatGPT od OpenAI. Na rozdiel od doplnku AI Content Describer nemusíte nič nastavovať ani platiť.

AI dáva výstupy na základe promptu (požiadavky, príkazu), ku ktorému nemáte ako používatelia prístup a ani ho nemôžete na rozdiel od AI Content Describera meniť. Prompt vyvoláte použitím jednej zo štyroch klávesových skratiek:

  • CTRL+Alt+H – spúšťa opis celej obrazovky.
  • CTRL+Alt+J – vyfotí záber pomocou kamery počítača.
  • CTRL+Alt+K – opíše obrázok v prieskumníkovi súborov.
  • CTRL+Alt+L – popíše obrázok skopírovaný do schránky. Toto sa mi nedarí sfunkčniť, vždy mi aplikácia vypíše chybu.

Keďže AI Content Describer spustíte spolu s NVDA, problém s minimalizovaním odpadá.

Ako som už spomínala, skratky sú globálne, čo znamená, že fungujú odkiaľkoľvek. Preto pri ich zmene dajte pozor, aby sa so žiadnymi skratkami nebili, inak nebudú fungovať.

Po stlačení niektorej skratky pre opis obrázka sa začne prehrávať zvuk a okno Be My Eyes vyjde do popredia. V ňom sa zobrazí aj výstup v textovej forme, môžete si ho tak prečítať bežnými príkazmi, na ktoré ste zvyknutí. Opis na moje prekvapenie nemôžete skopírovať a ďalej s ním pracovať, a to ani pomocou objektovej navigácie. Aspoň mne sa to nepodarilo. V doplnku AI Content Describer s tým problém nie je.

Aplikácia má oproti doplnku jednu veľkú výhodu – umožňuje klásť doplňujúce otázky. Stačí sa Tabulátorom presunúť do editačného poľa, napísať otázku a stlačiť Enter, prípadne nájsť a aktivovať tlačidlo Odoslať.

Kvalita výstupov

Stále platí: umelá inteligencia nie je stopercentne spoľahlivá. Môže si vymýšľať a s týmto vedomím je potrebné k jej opisom pristupovať. Je tiež otázkou, čo si nechať popisovať a čo už nie. Pokiaľ by na opise závisela vaša bezpečnosť, zdravie, financie a podobne, buďte veľmi opatrní.

Pre predstavu ponúkam niekoľko výstupov, ktoré zámerne nijako neformátujem ani nemením, nechávam ich v pôvodnom znení. Použila som doplnok Speech history.

Popis celej obrazovky

Váš obraz:
„Video na YouTube s názvom „Na volné noze #23 – Víťa Válka“ sa načítava. Čas prehrávania je 16:40 z celkových 4:26:21. Na pravej strane sú odporúčané videá, napríklad „Svět je plný kopií, jen originály ho mění“ s dĺžkou 52:16 a „Z dětí vychováváme děti v dospělých tělech a to je problém“ s dĺžkou 1:33:24.“

Aké videá sú ešte medzi odporúčanými?
„Medzi odporúčanými videami sú ešte:
– Video s mužom, ktorý sa usmieva, s dĺžkou 23:55
– Video s názvom „MATRIX 50 ZAJÍMAVOSTÍ“ s dĺžkou 27:36
– Video s názvom „GALAXY BUDS“ s dĺžkou 10:30“

Ako môžete vidieť, tu už nedal presné názvy napriek tomu, že s čítačom sa nájsť dajú.

Popíš mi ovládacie prvky prehrávača.
Ovládacie prvky prehrávača sú umiestnené v dolnej časti obrazovky. Zľava doprava sú:
– Tlačidlo prehrávania/pozastavenia
– Ovládanie hlasitosti
– Časový ukazovateľ, ktorý zobrazuje aktuálny čas prehrávania a celkovú dĺžku videa (16:40 / 4:26:21)
– Tlačidlo pre zapnutie/vypnutie titulkov
– Tlačidlo pre nastavenie kvality videa
– Tlačidlo pre zobrazenie videa na celú obrazovku“

Popis obrázka z prieskumníka

Váš obraz:
„Obrázok obsahuje modré pozadie s výrazným žltým štvorcom v strede. V žltom štvorci je modrý symbol oka, ktorý je preškrtnutý modrou čiarou. Tento symbol často označuje prístupnosť pre nevidiacich alebo slabozrakých.“

Popíš mi obrázok podrobnejšie.
„Obrázok má modré pozadie, ktoré zaberá celú plochu. V strede je žltý štvorec s modrým okrajom. V tomto žltom štvorci je modrý symbol oka, ktorý je preškrtnutý modrou diagonálnou čiarou z ľavého horného rohu do pravého dolného rohu. Symbol oka má v strede tri bodky usporiadané do trojuholníka. Tento symbol je často používaný na označenie prístupnosti pre nevidiacich alebo slabozrakých, alebo na označenie, že niečo nie je určené na vizuálne vnímanie.“

Všetko správne až na 3 bodky. V oku je písmeno t v Braillovom písme. Ani 1 software na rozpoznanie obrazu ho ale ešte správne nerozpoznal.

Opis záberu z prednej kamery

Táto funkcia teoreticky môže poslúžiť na to, aby ste zistili, či sa nachádzate v zábere kamery pred online meetingom. Podľa výsledkov však môžem na toto odporučiť doplnok AI Content Describer. Z môjho pohľadu ponúka presnejší popis.

Váš obraz:
„Na obrázku je žena s krátkymi, kučeravými tmavými vlasmi. Má na sebe čierne alebo tmavomodré oblečenie. Jej pohľad smeruje mierne nahor a doľava. V pozadí je miestnosť s otvoreným oknom na ľavej strane, cez ktoré preniká svetlo. Na pravej strane miestnosti je vidieť niekoľko predmetov na stole alebo poličke. Stena je svetlej farby.“

Pohľad na fotografiu je taký, ako by sa niekto pozeral na vás. To znamená, že okno je po mojej pravej ruke, ale Be My Eyes ho popisuje vľavo. S tým musíte počítať.

Popis obrázka v schránke

Ako som spomínala, táto funkcia mi z neznámych dôvodov nefunguje.

„Niečo sa pokazilo. OK tlačidlo“

Záver

Be My Eyes alebo teda Be My AI je aj v systéme Windows veľmi užitočný nástroj. Subjektívne jej výstupy hodnotím ako kvalitnejšie oproti AI Content Describeru. Škoda, že používatelia nemajú prístup k promptu.

Oproti doplnku aplikácia nemá niektoré funkcie ako opis objektu pod kurzorom alebo zameraného objektovou navigáciou, čo sa môže zvlášť hodiť v neprístupných aplikáciách, ale na základné a väčšinou používateľov očakávané scenáre úplne a bez výhrady postačuje.


Článek vyšel původně na webu Technologie bez zraku.



Be My AIBe My Eyes


Michaela Dlhá
Volám sa Michaela Dlhá. Som prakticky nevidiaca. Asistenčné technológie využívam už od základnej školy. V súčasnosti som zamestnaná v Únii nevidiacich a slabozrakých Slovenska. Skúšaniu a testovaniu hardwaru a softwaru z hľadiska prístupnosti sa venujem už asi 10 rokov, ale...