Funguje to tak, že si telefonní přístroj váš hovor nejprve nasnímá, pak jej odesílá do speciální databáze na webovém serveru, a nakonec se zobrazí požadovaný text. Program porovnává v databázi několik stovek tisíc výrazů, které se podobají vyřčenému slovu, přitom jsou všechny zvuky rozčleněny do kratičkých časových úseků v řádu milisekund. Hlasová funkce je použitelná v mnoha aplikacích, např. pro psaní textových zpráv (SMS), pro vyhledávání v mapách, pro fulltextová hledání, pro různé matematické výpočty atd. Jedná se ovšem o technologii na špičkové úrovni mezi mobilními aplikacemi a společnost Google je prozatím jedinou, která něco takového umožní v několika desítkách jazykových verzí, a to zdarma.
Poprvé s tím Google přišel v roce 2010
Vůbec první prototyp rozpoznávání slov z hlasového projevu z roku 2010 byl překvapivě kvalitní. Samozřejmě se tam chybičky objevily, ale jen drobného charakteru. Velmi přesně pracoval například u zadávání vyhledání počasí v určité lokalitě, u vyhledávání obcí a měst, názvů firem a podniků, které byly v databázi k dispozici. Trochu potíží se objevilo v souvislosti s prací kalkulačky u některých operandů, čísla ovšem byla zobrazena většinou správně.
Za několik let se aplikace zdokonalila, dokonce se počítá i s hlasovými povely v rušných ulicích. Spolehlivá je především pro vyhledávání výrazů, zvládá poměrně slušně i delší požadavky, kdy je hovorem nadiktováno několik vět souvislého textu. Aplikaci jistě ocení lidé, kteří si potřebují něco zaznamenat velmi rychle formou textu a nechtějí využívat diktafon. Některé hlasové programy dokážou ovládat i samotný telefon.
Projekt rozpoznávání lidské řeči vypadá na první pohled jednoduše, ale je za tím skryto mnoho hodin práce programátorů a také externích spolupracovníků, kteří musí poskytnout dostatek vzorků mluveného slova. Musí se mezi nimi provádět porovnávání a správné zařazování do rozsáhlé databáze a to je skutečně náročné.