Moderne Spracherkennungssysteme haben ein erstaunliches Niveau erreicht und können in lauter Umgebung sogar mit menschlicher Leistung mithalten oder sie übertreffen. Dennoch benötigen sie gewaltige Mengen an Trainingsdaten, während Menschen Sprache in vergleichsweise kurzer Zeit erlernen. Besonders in häufig genutzten Sprachen wie Englisch hat die automatische Spracherkennung erhebliche Fortschritte gemacht. Während früher angenommen wurde, dass Menschen Maschinen in diesem Bereich weit überlegen sind, erreichen heutige Systeme eine vergleichbare oder sogar bessere Genauigkeit. Ziel der Forschung war es, die Fehlerrate zu reduzieren – unabhängig davon, wie gut Menschen unter denselben Bedingungen abschneiden. Eine aktuelle Studie der Universitäten Zürich und Cambridge verglich die Leistung der Systeme „wav2vec 2.0“ von Meta und „Whisper“ von OpenAI mit der von britischen Muttersprachlern. Getestet wurde unter verschiedenen Störgeräuschen, etwa Kneipenlärm, und unter Bedingungen mit und ohne Gesichtsmaske. Die Ergebnisse zeigten, dass Menschen insgesamt präziser waren – mit einer entscheidenden Ausnahme: OpenAIs „Whisper large-v3“ übertraf sie in fast allen Tests. Lediglich bei starkem Kneipenlärm konnte es nur gleichziehen. Besonders beeindruckend war seine Fähigkeit, auch aus dem Zusammenhang gerissene Sätze korrekt zuzuordnen.