Beratung X.0: «Stets zu Diensten»

14.09.2021

.intro-cta > .cta-image > .image-wrapper { padding: 0px 0 10px; } .intro-cta > .cta-image > .image-wrapper img { width: 220px; max-width: 220px; }
insightsPageview({ aktuelles_topic: 'Beratung X.0: «Stets zu Diensten»', aktuelles_category: 'publikationen', aktuelles_date: '14.09.2021' })
.cover-image { background-position: center center; background-image: url('/dam/jcr:b532487e-1b93-4610-b839-1cf02d1329e3/header_beratung_2400x1800.svg'); } @media (max-width: 985px) { .cover-image { background-position: center center; } }

Dieser Beitrag ist erschienen im Ergon Magazin SMART insights 2021. Magazin kostenlos bestellen ->


«Hallo Siri», «Ok Google», «Guten Tag, Alexa». Mit Siri, Google, Alexa und Co. haben digitale Sprachassistenten Einzug in unser Leben genommen. Im privaten Umfeld gestartet, ebnet sich die Erkennung gesprochener Sprache den Weg für digitale Assistenten vermehrt im Geschäftsumfeld. Durch Verstehen von Kommandos oder gar ganzen Gesprächen werden sie zu unverzichtbaren Helfern, die den Menschen in Sekundenschnelle unterstützen.

Was zunächst als Modeerscheinung belächelt wurde, entwickelt sich zu immer ausgeklügelteren Smart-Speaker-Systemen, die im angelsächsischen und zunehmend auch im deutschsprachigen Raum zum Einsatz kommen. Studien belegen, dass Menschen sich an Sprachassistenten im Alltag schnell gewöhnen, auch in der Schweiz. Die Einsatzmöglichkeiten solcher Assistenten sind vielfältig. Ob als Unterstützung im Smartphone, im Smart Home oder vermehrt im Geschäftsumfeld. Sprechen statt Tippen lautet die Devise. Ein sogenanntes Voice User Interface (VUI) bezieht sich auf ein System, das Sprachbefehle entgegennimmt und mit Benutzer:innen via Sprachausgabe kommuniziert.

Grossen Mehrwert bieten solche Systeme in Beratungsgesprächen. Sie liefern relevante Informationen in Echtzeit, protokollieren und erstellen ein Fazit. Wer kennt sie nicht, die Situation im Beratungsgespräch. Man unterhält sich mit Expert:innen, sie geben Auskunft und oftmals müssen Informationen recherchiert oder geprüft werden – unangenehme Wartezeiten entstehen, denn Menschen erwarten heute Information auf Knopfdruck.

Komplexe Ansprüche in Echtzeit

Solche Unterbrüche müssen aber nicht sein. Digitale Assistenten denken mit, nehmen Fragen auf, recherchieren und helfen mit aktuellen Daten, solche Gesprächsunterbrüche zu vermeiden. Klingt einfach, ist es aber nicht. Wer heute Sprachassistenten einsetzt, weiss: Oftmals verstehen sie uns einfach nicht. Gesprochene Sprache in ihrer Vielfalt zu verstehen, ist schwierig. Die Bandbreite von Schweizer Dialekten macht es nicht einfacher. Auch kann, je nach Betonung, ein Satz mit der gleichen Wortfolge eine Frage oder eine Aussage sein. Doch neuester Fortschritt ermöglicht heute einiges: Worterkennung, Verständnis von Sätzen und Interpretation von Sprache.

Nebst dem Verstehen einzelner Sätze müssen diese auch im Kontext des Gesprächsverlaufs interpretiert werden.
Ein Beispiel:

Frau Bankexpertin
«Wollen Sie 10 Aktien davon?»

Herr Bankkunde
«Nein, nur 5 Stück bitte, dafür 2 mehr von den anderen.»

Die Identitäten der besprochenen Aktien sind in diesem Beispiel nur aus dem vorherigen Kontext erkennbar. Aufeinander aufbauende Informationen, die auf unterschiedliche Sätze und Sprecher:innen verteilt sind, sind für ein System anspruchsvoll zu interpretieren.

Moderne Sprachassistenten bieten heute jedoch vermehrt ein natürliches Gesprächserlebnis. Für das Verständnis der menschlichen Sprache werden maschinelles Lernen und künstliche Intelligenz genutzt. So können sie beispielsweise innerhalb eines Beratungsgesprächs Antworten auf komplexe Fragen geben, Zusatzinformationen liefern, Empfehlungen aussprechen oder sogar Vorhersagen treffen.

Im genannten Beispiel profitiert Frau Bankexpertin davon, dass zeitgleich ein Gesprächsfazit aufbereitet wird und zusätzliche Investment-Empfehlungen, basierend auf den aktuellen Kund:innenpräferenzen, vorgeschlagen werden können. Herr Bankkunde profitiert somit von einem massgeschneiderten Beratungsgespräch ohne Unterbruch. Minimiert werden auch Compliance-Risiken durch die Protokollierung des Gesprächs.

Thomas Briner, Senior Software Engineer, Ergon

«Das Verständnis von Sprachverlauf und die Interpretation von aufeinander aufbauender Information sind kritische Erfolgsfaktoren.»

Thomas Briner Senior Software Engineer, Ergon

Mehr als nur Verstehen

In beratungsintensiven Unternehmen wie im Banken- oder Versicherungsumfeld können Sprachassistenten Berater:innen bei der Lösung der jeweiligen Aufgabe unterstützen. Sie sind weniger mit repetitiven oder administrativen Aufgaben wie dem Protokollieren beschäftigt und können den Kund:innen ihre volle Aufmerksamkeit widmen. Auf deren Anliegen kann kompetenter eingegangen werden, was zu einem besseren Erlebnis und zu einer höheren Zufriedenheit führt. Den Berater:innen bleibt mehr Zeit für die menschliche Interaktion und unternehmenskritische Aufgaben wie das Treffen von komplexen Entscheidungen oder die Beurteilung von komplizierten Situationen.

Zusätzlich verleiht das Verständnis von Gesprächen eines Sprachassistenten auch Sicherheit für die Beratung. Werden beispielsweise Transaktionen beauftragt, die einen definierten Risikorahmen sprengen, weist der digitale Assistent darauf hin. So können Risikoüberschreitungen dank automatischer Kontrollen verhindert werden.

Erfolgsfaktoren für die Benutzer:innenakzeptanz

Ob ein digitaler Assistent vom Menschen akzeptiert wird, hängt von diversen Faktoren ab. Ausschlaggebend ist die Qualität, denn bei zu hoher Fehlerquote ist keine Hilfe geboten. Die Erkennung von unterschiedlichen Sprecher:innen, Sprachwechsel und unterschiedlichen Dialekten sind mögliche Aspekte. Hinzu kommen das Verständnis von Sprachverlauf, die Interpretation von aufeinander aufbauender Information und die Betonung von Aussagen. All das sind kritische Erfolgsfaktoren für das Qualitätsempfinden. Im Geschäftsumfeld ist die Vertraulichkeit in Beratungsgesprächen ein weiterer wichtiger Aspekt. Sensitive Gespräche erfordern Sicherheit und Diskretion. Der Einsatz eines Sprachassistenten setzt das Einverständnis aller Beteiligten voraus. Dabei gilt es aufzuzeigen, welche Funktion der digitale Assistent einnimmt und welchen Mehrwert dieser liefert. Auch der Verwendungszweck der Daten sollte vorgängig geklärt sein: Was genau passiert mit den Daten? Werden die Aufzeichnungen Wort für Wort gespeichert oder auch für Trainingszwecke verwendet? Ebenso wichtig ist die Möglichkeit einer flexibel einsetzbaren An- und Abschaltfunktion.

Letztendlich soll die Assistenz hilfreich und nicht störend sein. Je nach Situation reicht das Spektrum von passiv im Hintergrund über dezente Signale bis hin zu aktiver Gesprächsteilnahme mit Sprachausgabe. Dies gilt es, am Geschäftsumfeld auszurichten, sodass rundum ein Mehrwert geliefert werden kann.

Das Entwicklungspotenzial von VUI ist gross. Gerade das Verstehen von freien Gesprächen ist hochkomplex und es gilt, noch einige Tücken der Praxis zu bewältigen.

Schwiizerdütsch oder Schwyzerdiitsch?

Die Schweizer Sprach- und vor allem Dialektvielfalt stellt nicht nur Fremdsprachler:innen vor eine grosse Herausforderung. Auch viele Maschinen scheitern. Regeln gibt es keine und die Heterogenität der Sprache ist enorm. Dies steht im Kontrast zur geringen Anzahl Personen, die diese Dialekte sprechen. Um Gespräche mittels Natural Language Processing (NLP) zu verstehen, sind grosse Datenmengen für das Training der Machine-Learning-Modelle notwendig. Sammlungen von Texten, sogenannte Korpusse, existieren für Schweizerdeutsch bisher nicht.

Fokus auf Domänenrelevanz

Je offener das Gespräch, desto schwieriger die Aufgabe. Um bessere Resultate zu erzielen, ist der Fokus auf relevante Gesprächsphasen sinnvoll, bei denen eine Unterstützung durch den Sprachassistenten erwartet wird. Dies beschränkt das Vokabular, macht Begriffe und den Kontext eindeutiger und reduziert Fehler. Geschäftsanwendungen sind hier im Vorteil. Sie können auf domänenrelevante Gesprächsphasen beschränkt werden, ohne ihre Aufgabe zu vernachlässigen. Die grossen Artificial Intelligence Player haben zwar grössere Datenmengen zur Verfügung, doch fehlen ihnen Fokus und Spezialisierung. Deshalb sind sie in einer Fachdomäne wie im Banken- oder Versicherungsumfeld noch sehr limitiert.

Michael Gut, Senior Software Architect, Ergon

«Um Gespräche mittels Natural Language Processing zu verstehen, sind grosse Datenmengen für das Training der Machine-Learning-Modelle notwendig.»

Michael Gut Senior Software Architect, Ergon

Hürden der multimodalen Interaktion überwinden

Oftmals reicht die Tonspur allein nicht aus. Bei multimodalen Interaktionen werden neben der Sprache weitere Kanäle miteinbezogen. Zum Beispiel zeigt Herr Bankkunde auf ein Diagramm auf einem Blatt Papier und fragt: «Was ist damit gemeint?» Einem rein audiobasierten Assistenten fehlt hier der visuelle Kontext, um diese Frage zu verstehen. Manchmal genügt es schon, wenn der:die Berater:in die Frage konkretisiert und so den impliziten Kontext explizit macht. Auch Visualisierungen, die mit physischen Elementen verknüpft werden wie Projektionen auf einem Blatt Papier, können den benötigten Kontext liefern und somit das Verständnis von Sprache unterstützen. Die Interpretation visueller Daten ist möglich, doch technisch nicht trivial.

Eine Reise

Mit dem Verständnis von Sprache wird Neuland betreten. Es geht weit über rein gesprochene Kommandos hinaus und entwickelt sich zu immer freierer und natürlicherer Sprache, ohne bestimmte Sprachbefehle. Der Mehrwert liegt auf der Hand. Doch wie genau Interaktionen für wahrgenommenen Nutzen seitens Kund:innen, Berater:innen und Unternehmen ausgestaltet werden sollten, wird sich zeigen.

Mögliche Hürden sind als Chance für ein gesteigertes Kund:innenerlebnis zu sehen. Hierbei kann die Verknüpfung von physischen Elementen und virtuellen Inhalten weitere Interaktionsmöglichkeiten bieten. Diese liefern hilfreiche Inhalte zur Qualitätssteigerung von Beratungsgesprächen und verleihen den Kund:innen eine Spracherfahrung, die noch angenehmer und benutzer:innenfreundlicher ist.

Es ist nur eine Frage der Zeit, bis die Kombination aus Sprache und künstlicher Intelligenz so weit ist, dass Sprachassistenten aus unserem Geschäftsalltag nicht mehr wegzudenken sind. Das Arbeitsleben befindet sich im Wandel und wird durch eine enge Zusammenarbeit mit digitalen Assistenten geprägt sein. Wichtig bleibt: Menschen sollen durch die Maschine nicht ersetzt, sondern unterstützt werden.

Dieser Beitrag wurde verfasst von Thomas Briner, Senior Software Engineer, und Michael Gut, Senior Software Architect.

Lust auf mehr?

Digitalisierungs­vorhaben
Zukunftsmacher
Tech-Trends

Jetzt bestellen .article-cta > .article-cta-wrapper > .cta-content > .cta-link::after { background-image: url(/.resources/ergon/themes/ergon-theme/images/icon_arrow_long.svg);}
.article-cta > .article-cta-wrapper > .cta-image { margin-top: -85px; margin-bottom: -140px; } @media (max-width: 985px) { .article-cta > .article-cta-wrapper { grid-template-columns: 1fr; } .article-cta > .article-cta-wrapper > .cta-image { margin-top: -25px; margin-bottom: -100px; margin-left: -20px; } } @media (min-width: 985px) { .article-cta > .article-cta-wrapper { grid-template-columns: 1fr 1fr; } }
Titelbild SMART insights 2021