Smartphone-Sprachsteuerung

Es gibt viele verschiedene Lösungen für die Sprachsteuerung von Smartphone-Funktionen, aber nicht alle sind mit ausreichender Qualität implementiert. Wir haben diejenigen ausgewählt, die wirklich funktionieren.

Die Sprachsteuerung bei der Arbeit mit modernen Smartphones und Kommunikatoren, die mit ausreichend leistungsstarken CPUs ausgestattet sind, ist ein etablierter Trend bei der Schaffung praktischer Benutzeroberflächen. Es ist in unterschiedlichem Maße auf allen wichtigen mobilen Plattformen möglich. In iOS erschien es in Version 3.0 (voll funktionsfähig ab 4.0), in Google Android - in Version 1.6 (voll funktionsfähig - ab 2.2). Diese Funktion ist in Windows Mobile und S60 relativ gut implementiert. Wir haben verschiedene Lösungen ausgewählt, die die Standard-Sprachsteuerungsmodule ersetzen können, sowie Software zur Erweiterung der Funktionalität.

Hauptmerkmale von Spracherkennungssystemen

In den letzten zwei oder drei Jahren wurde die Sprachsteuerung als eine der vielversprechendsten Technologien bei der Erstellung von Benutzeroberflächen angesehen. Dies wird von den Führungskräften von Microsoft angekündigt, und Vertreter von Google und Apple zeigen spürbares Interesse.

In der Tat scheint die Steuerung eines mobilen Kommunikationsgeräts durch Drücken von Tasten bereits archaisch. Touchscreens und Sprache werden als natürliche Interaktionsmöglichkeiten für Menschen und intelligente Geräte vermarktet. Ein wichtiges Merkmal solcher Systeme ist die korrekte Erkennung von Befehlen. Wenn mit der Touch-Steuerung alles mehr oder weniger klar ist (moderne Smartphones unterstützen sogar die Steuerung mit komplexen Multitouch-Gesten), sind die Dinge mit Sprachbefehlen nicht so einfach.

Erstens reagiert das System möglicherweise nicht immer richtig auf die Aussprache von Befehlen. Sie müssen sich an eine solche Steuerung anpassen, was nicht immer bequem ist: Es ist sehr anstrengend, das Timbre der Stimme und der Intonationen ständig im Auge zu behalten. In diesem Fall müssen Befehle vom allgemeinen Hintergrundrauschen getrennt werden, was Rechenressourcen erfordert.

Zweitens lässt sich ein solches System nicht automatisch einschalten. Um es zu aktivieren, müssen Sie in der Regel eine Taste an einem Gerät oder Zubehör (z. B. einem drahtlosen Headset) drücken. Die Einbeziehung von Software ist nicht immer bequem. Bei Kommunikatoren mit Windows Mobile mit Broadcomm-Software-Stack funktioniert die Aktivierung von Microsoft Voice Commander über ein Bluetooth-Headset möglicherweise instabil oder funktioniert überhaupt nicht.

Drittens ist die Sprachsteuerung noch nicht in der Lage, Ungenauigkeiten und Fehler des Benutzers zu korrigieren. Wenn Sie beispielsweise versuchen, ein Lied einer Gruppe abzuspielen, deren Name den Artikel "the" enthält, ohne ihn zu erwähnen, versteht das Gerät in den meisten Fällen einen solchen Befehl nicht. Schwierigkeiten treten auch beim Wählen von Namensvetter und Namensvetter aus einem Notizbuch auf. Für einen korrekten Betrieb müssen Sie das Feld "Spitzname" ausfüllen und einen zusätzlichen Startbefehl zuweisen.

Viertens startet der Prozessor des mobilen Geräts für die ständige Verwendung der Sprachwahl (zum Beispiel beim Schreiben einer SMS) ziemlich ressourcenintensive Module des Erkennungssystems. Dies hat nicht den besten Einfluss auf die Leistung und die Akkulaufzeit des Kommunikators. Jetzt wird dieses Problem jedoch allmählich gelöst.

Vlingo ist ein plattformübergreifendes Sprachsteuerungsmodul für die Arbeit mit Software von Drittanbietern

Speereo Voice Launcher bietet eine Vielzahl von Funktionen für die Sprachsteuerung und versteht sogar die nicht sehr klare Aussprache

Verwaltung der Standardsystemfunktionen und Sprachsuche.

In allen gängigen mobilen Betriebssystemen ist bis zu dem einen oder anderen Grad die Möglichkeit der Spracherkennung von Befehlen zum Starten typischer Anwendungen implementiert. Wählen Sie beispielsweise eine Nummer aus einem Notizbuch, öffnen Sie einen E-Mail-Client oder starten Sie eine Wiedergabeliste. Darüber hinaus können diese Module Systemprozesse abhören und darüber informieren, dass das Telefon fast leer ist oder in den stillen Alarmmodus geschaltet wurde. Keines der Programme kann komplexere Befehle ausführen (z. B. "Öffnen Sie einen E-Mail-Client, schreiben Sie einen Brief an Herrn Ivanov und markieren Sie alle Nachrichten im Posteingang nach dem Senden als gelesen"). Sie entwickeln sich jedoch allmählich. Wenn Sie also ein iPhone auf Basis von iOS4 fragen, wie spät es jetzt ist, wird die Systemzeit bekannt gegeben. Außerdem,Das gleiche Sprachprogramm dieses Betriebssystems versteht die negativen Antworten des Benutzers: "Nein", "Falsch", "Falsch" usw. In anderen mobilen Systemen müssen Sie stattdessen auf die Touch-Steuerung zurückgreifen.

Auf klassischen WM-Geräten werden zwei Pakete für die Sprachsteuerung verwendet - Cyberon Voice Commander und Microsoft Voice Command. Die gleichzeitige Verwendung funktioniert jedoch nicht - Sie müssen eine auswählen.

Das erste erfordert einige Schulungen, um die Befehle zu erkennen, obwohl die Liste nicht sehr groß ist. Das Programm kann Kontakte und Kalendereinträge aufrufen, alle Standardanwendungen und einige Anwendungen von Drittanbietern ausführen, Musik abspielen und eingehende Nachrichten lesen. Das zweite Paket steuert zusätzlich die Lautstärke, die Funktionsweise von drahtlosen Verbindungen und gibt auch Systemereignisse aus. Microsoft hatte kürzlich auch ein interessantes Produkt, TellMe, für die erweiterte Sprachsteuerung. Es ist in der Lage, den Bing-Suchclient mit einer diktierten Informationsanfrage zu starten, über Aktienkurse, Sportergebnisse, Wetter, Filme und Verkehrsbedingungen zu sprechen. Für all dies muss das Gerät jedoch mit dem Internet verbunden sein und sich im Sichtbereich von GPS-Satelliten befinden. Mit diesen Werkzeugen wird der Standort berechnet.Darüber hinaus ist dieser Service nicht in russischer Sprache verfügbar.

In iOS und Android über Version 2.2 von FroYo sind die integrierten Sprachwahlsysteme ungefähr identisch, mit der Ausnahme, dass das Produkt von Google Routen mithilfe von Karten zum Standort des Büros eines bestimmten Unternehmens oder zu einem bestimmten Punkt weiterleiten kann. In Symbian OS 5th Edition ist die Sprachsteuerung nur für die Ausführung der Standardsystemfunktionen verantwortlich. Für die Sprachsuche müssen Sie separate Software installieren, z. B. Google Mobile App.

Sprachsteuerung zusätzlicher Funktionen und Starten von Programmen von Drittanbietern

Natürlich sollten Sprachwerkzeuge nicht nur die tägliche Arbeit mit dem Kommunikator teilweise erleichtern, sondern auch die Ausführung alltäglicher Aktivitäten vollständig übernehmen. Und das nicht nur mit Standardprogrammen, sondern auch vom Benutzer zusätzlich installiert. Für diese Zwecke können Sie separate Produkte verwenden, z. B. Speereo Voice Launcher. Dieses Programm ist kompatibel mit Symbian OS (einschließlich S60), Windows Mobile und in Zukunft mit Android OS. Es ist eine kompakte Shell, mit der Sie den Start von Anwendungen und Dateien sowie den Übergang zu beliebigen Webseiten im Browser planen können.

Das Produkt hängt nicht sehr stark von den Eigenschaften der Stimme des Besitzers ab: Die Erkennungs-Engine kann Befehle erkennen, die mit einem Akzent oder geringfügigen Diktionsfehlern ausgesprochen werden. Die Integration in Standardprogramme (Notebook, Organizer, Instant Message Client) ist vorgesehen, es werden jedoch keine Lesezeichen von Favoriten übertragen. Die Definition der Befehle zum Starten erfolgt über die Anwendungseinstellungen. Der Benutzer schreibt den Befehlsnamen in Russisch in Latein oder in einer der unterstützten Sprachen (Englisch, Deutsch, Französisch usw.), wonach er in die Datenbank eingegeben wird. Interessanterweise nimmt Speereo Befehle auch in lauten Umgebungen auf.

Für Google Android-Versionen unter 2.2 gibt es drei Anwendungen, die den in Android OS FroYo angezeigten Launcher-Dienst für Sprachaktionen ersetzen. Erstens sind dies die Programme Edwin und Vlingo, die nur mit Englisch arbeiten.

Der erste ist ein erweiterter Client für die Sprachbefehlserkennung, der nicht nur die Google-Suche ermöglicht, sondern auch mathematische Formeln in Wtolfram Alpha findet, Nachrichten an Twitter sendet usw.

Der zweite Client (läuft auf iOS-, WM-, S60- und RIM BlackBerry-Plattformen) verfügt über dieselben Funktionen wie Microsoft TellMe. Suchen Sie neben der Möglichkeit, Status an soziale Netzwerke zu senden, nach Routen und Kontaktinformationen zu Unternehmen in der Region. Schließlich gibt es TopVoiceControl für Android-Kommunikatoren. Neben dem üblichen Wählen von Nummern aus dem Adressbuch und dem Erkennen gesprochener Nummern kann es drahtlose Schnittstellen steuern und den Kalender öffnen.

Aufgabenliste

Sprachorganisatoren sind immer noch exotisch, aber die ersten Anwendungen dieser Art erscheinen bereits und gewinnen an Popularität. Daher bietet der erwähnte Entwickler Speereo Software das Programm Speereo Voice Organizer an, mit dem Einträge in den E-Mails "Kalender" und "Aufgaben" erstellt werden können. In diesem Fall wird die Stimme jedoch nicht in Text konvertiert. Die Nachricht wird als angehängte Audiodatei gesendet und informiert über aktuelle Aufgaben. IOS enthält den QuickVoice2Text-E-Mail-Client, der diktierte Nachrichten erkennt und in ein Textformat übersetzt.

Für Google Android wurde eine Sprachanwendung Taskos To Do List zum Hinzufügen von Aufgaben zu einer To-Do-Liste und ein Programm zum Senden von SMS, Briefen und Nachrichten an Twitter namens VoiceLink veröffentlicht.

Aufgaben-Aufgabenliste Erstellen Sie eine Aufgabenliste, indem Sie sie Ihrem Android-Gerät diktieren

Geschichtsreferenz

Die ersten Spracherkennungstechnologien wurden 1952 eingeführt und ermöglichten die automatische Erkennung der gesprochenen Zahlen. In den frühen neunziger Jahren erschienen Lösungen auf dem Markt, die einzelne Wörter und Phrasen sowie einfache Sätze verarbeiten konnten. Sie waren in den Vereinigten Staaten üblich und wurden von Medizinern und Militärs eingesetzt. Die Popularisierung von Sprachsteuerungssystemen bei normalen Verbrauchern begann erst um die Wende vom 20. zum 21. Jahrhundert - mit dem Aufkommen von Smartphones.