'Das Tool' ist eine Applikation die es dem Benutzer ermöglicht, allein durch sprach-gesteuerte Befehle, auf spielerische Weise, ein Bild zu gestalten.
Mit dem Tool sollen elementare, grafische Formen, sowie Text platziert und manipu-liert werden können, und das, ohne über-haupt einen Finger rühren zu müssen.
Das Projekt soll die Rolle des Gestalters im Zeitalter der Automatisierung und des 'Internet Of Things' befragen und zu Dis-kussionen anregen. Wie verändert sich der Umgang zwischen Mensch und Maschine, wenn die Interaktion rein über Sprache funktioniert?
Die Anwendung wurde in Processing programmiert und bedient sich der Google Web Speech API, um die Sprach-Inputs zu erkennen.
Entstanden ist das Projekt im Rahmen meiner Bachelor Arbeit in visueller Kommunikation an der HGK Basel.
Start
Um mit Sprache Gestalten zu können braucht es zwei Komponenten.
1 Das Tool– welches für die Gestaltung nötig ist und Sprachbefehle umsetzt.
2 Eine Spracherkennungs-Engine– welche Sprach-Inputs erkennt und diese an das Tool zur Verarbeitung weiterschickt.
→ das_tool_v1.0.zip
Aktuellste Version des Tools für macOS (Stand 01. Juli 2017)
→ stt.alessandrothueler.net
Spracherkennung für das Tool (funktioniert nur mit Google Chrome)
Gut zu wissen
Für den optimalen Gebrauch und die Funktionalität der Applikation, ist der Einsatz eines externen Mikrofons für den Input von Sprachbefehlen, in einer ruhigen Umgebung, Voraus-setzung.
Die Programmsprache ist Englisch.
Wird während dem Gestalten eine andere Sprache gesprochen, oder versuchen Benutzer gleichzeitig Befehle zu geben, wird die Software mühe haben diese zu verarbeiten. Sollte es dazu kommen, dass Chrome die Sprach-Inputs nicht mehr er-kennt, wird empfohlen das Browser Fenster neu zu laden.
Allgemein
Hier aufgelistet sind nur ein Teil der mö-glichen Sprach-Inputs.Sprache ist vielfältig, flexibel und intuitiv, 'Das Tool' genauso.Viele Befehle können auch auf eine andere Art formuliert werden, es gilt nur noch herauszufinden wie.
Bestätigen
Jede Bewegung
Texteingabe
Löschen
Nur Objekt
Dokument
Speichern
als .PDF
als .PNG
→ «okay/stop»
→ «delete»
→ «clear»→ «new + document»
→ «export/save + PDF»
→ «export/save + PNG»
Objekte
Quadrat
Kreis
Dreieck
Linien
Text
Transformieren
Position
Rotieren
Grösse
Füllfarbe
Konturfarbe
Kontursträrke
Schriftschnitt
→ «square»
→ «circle»
→ «triangle»
→ «horizontal + line»→ «vertical + line»
→ «text»
→ «go/move + up/down»→ «go/move + left/right»
→ «rotate + right»→ «rotate + left»
→ «in/decrease + size»→ «make + bigger/smaller»
→ «change + color + to + colorName»
→ «colorName + stroke»
→ «in/decrease + stroke»→ «no + stroke»
→ «regular + font»→ «italic + font»→ «bold + font»
Text Mode
Texteingabe aktivieren → «text»
Wenn der Text Modus aktiv ist, werden alle Sprach-Input als Text dargestellt.Mit «okay/stop» Texteingabe bestätigen. Nun kann das Textelement wie ein normales Objekt manipuliert werden.
Slow Motion
Slow-Moaktivieren → «slow + mo»
Um Objekte präziser zu platzieren, kann die Slow Motion aktiviert werden. Jede Be-wegung wird um ein vielfaches verlangsamt. Slow-Mo kann während jeder Objekt-Transformation aktiviert werden. Um Objekt zum Stehen zu bringen und Slow Motion zu verlassen, mit «okay/stop» bestätigen.Um von Slow-Mo auf Default-Geschwindigkeit zurück zu wechseln den Befehl «faster» aussprechen.
März - April
Während der ersten Phase widmete ich mich einer langen Recherche. Es galt herauszufinden mit welchen Mitteln ich die Idee eines persön-lichen Gestaltungsassistenten verwirklichen könnte.
Die Wahl viel auf die mir schon bekannte Anwendung Processing, in Kombination mit Google's Speech API, welche über's Internet, Sprache in Text umwandelt.
Schon bald war ich in der Lage ein Kreis oder ein Quadrat zu "sprechen". Der Enthusiasmus war gross.
Probleme
Wie kopple ich Google's Spracherkennung mit Processing?
Wie ordne ich ein bestimmtes Wort einer bestimmten Funktion zu?
Gedanken
Was beinhaltet das Tool? Reichen Formen- und Typoebene aus um ein Bild zu machen?
→ das_tool_v0.1.zip
'Das Tool' Version 1 (Stand: März 2017)
→ zum Arbeitsverlauf
Der Arbeitsverlauf dokumentiert die Interaktion zwischen mir und dem Tool und beinhaltet zusätz- liche Notizen.
April – Mai
Endlich war ich in der Lage eine unbestimmte Anzahl an Objekte gleichzeitig darzustellen und diese in 50px-Schritten herumzuschieben.
Der Gestaltungsprozess war jedoch lang und mühsam: um ein Objekt beispielsweise 400px nach Oben zu verschieben, musste der dazuge-hörige Befehl 8 Mal wiederholt werden.
Andererseits konnte man alle Objekte genau aneinander Ausrichten, da alles dem Raster untergeordnet war.
Gibt es eine bessere, effektivere Methode um mit Sprache Objekte zu manipulieren oder transformieren, als die, die ich benutze?
Ein unbekannter Fehler, der das Tool zum Absturz bringt, hat sich eingeschlichen. Wie werde ich ihn los?
Ist es wichtiger, dass man präzis arbeiten kann, aber dafür etwas langsamer? Oder umgekehrt?
→ das_tool_v0.2.zip
'Das Tool' Version 2 (Stand: April 2017)
Mai – Juni
Eine grosse Herausforderung in dieser Phase war, mehr als nur ein Text-Objekt hinzufügen zu können.
Ausserdem wechselte ich vom Raster-System, in welchem sich Objekte pro Befehl nur jeweils um 50px bewegten, zu einem Stufenlosen-System, bei welchem sich ein Objekt bewegte, bis man «Stopp» sagt.
Ein neues Problem (welches meine Arbeit stark konditionierte) tauchte mit dem Stufenlosen-System auf: Lag! Die Verzögerung die entsteht, ab dem Aussprechen des Befehls bis zu dessen Verarbeitung und Umwandlung in Textform, führt dazu, dass sich bewegende Objekte nicht genau dann zum Stehen kommen, wenn man den «Stopp» Befehl ausspricht.
Wie kann ich Sprachbefehle die als Inhalt eines Textobjektes gedacht sind, von allgemeinen Befehlen trennen?
Der unbekannte Fehler, der das Tool zum Absturz bringt besteht immer noch. Wie werde ich ihn los?
→ das_tool_v0.3.zip
'Das Tool' Version 3 (Stand: Mai 2017)
Ist Spracherkennung, im Bezug auf ein Grafik-Tool, noch zu wenig weit entwickelt, oder ist sie einfach nicht geeignet um in diesem Kontext eingesetzt zu werden?
Juni – Juli
Testphase: 10 Personen haben das Tool ausprobiert und etwas damit gestaltet.
Einzig der Lag wurde kritisiert.
Um dem Entgegenzuwirken habe ich zusätzlich den 'Step Mode' eingebaut. Ein Raster-System, basierend auf 10px-Schritten. Der Benutzer hat nun die Möglichkeit zwischen 'Step Mode' und dem Default-Modus hin und her zu wechseln.
Das Tool kann was es soll. Details werden fortlaufend angepasst.
Es ist faszinierend, dass man lediglich aus-sprechen muss was man will und das Tool übernimmt die Ausführung. Ist der Beruf des Grafikers nun definitiv kein Handwerk mehr?
→ das_tool_v0.4.zip
'Das Tool' Version 1 (Stand: Juni 2017)
Danke
an Ted Davis, Adriano Diethelm, Christian Löffel, Megan Adé, Aline Wagner, Sanna Aellig und an meine Mentoren für das wertvolle Feedback.
an diejenigen die das Tool getestet haben.
an Florian Schulz für das Teilen seines Wissens im Bereich Speechrecognition.
Kontakt
Alessandro Thülerhallo@alessandrothueler.net
Copyright
Alle Rechte vorbehalten.2017 Alessandro Thüler
Jegliche Bilder und Materialien auf dieser Website sind Eigentum von Alessandro Thüler.
Für die Spracherkennung wurde Google's Speech API verwendet.
Bachelor Arbeit
von Alessandro ThülerInstitut Visuelle KommunikationFS 2017 – HGK Basel
Mentor schriftliche Arbeit
Invar-Torre Hollaus
Mentoren gestalterische Arbeit
Fabian Kempter
Jiri Oplatek
Susanne Käser