L’humain s’attend à avoir certains mots après d’autres mots. Par exemple, le thème choisi inclut des mots par défaut auxquels on se réfère. Il faudrait donc que la reconnaissance audio soit paramétrée en fonction de la catégorie et du thème.
Il y a aussi la vidéo qui permet de voir si ce qui est dit est bien dit. Il faudrait donc une reconnaissance vidéo pour mieux suivre l’audio.
Il y a aussi la connaissance de l’ensemble des phrases possibles initiée par l’orateur, avec lequel on s’attend à des phrases longues ou courtes, simples ou complexes.
Enfin il y a les erreurs que fait l’orateur qu’on voit avec la vidéo, avec une mauvaise intonation. L’humain voit quelle solution apporter à ces erreurs. Seulement l’ordinateur croira ce qui est dit. Donc il restera toujours des erreurs avec la transcription audio.