Ostatnio przeczytałem ciekawy artykuł Gazecie Prawnej dotyczący dostępności systemów bankowych podczas naszego pobytu na wakacjach, gdzie nie można skorzystać z internetowej bankowości. Okazuje się, że telefoniczne systemy automatyczne w takich wypadkach wracają do łask.

Jak w artykule napisano, są różne metody dostępu do konta bankowego przez telefon. Jedno z nich to mobilne strony internetowe. Jednak w ich przypadku należy posiadać komórkę z dużym ekranem i liczyć się z ogromnymi kosztami przesyłu danych w roamingu (jeśli jesteśmy na przykład w znanym i lubianym Egipcie to te koszty są znaczące). Ponadto możemy napotkać na bloker w postaci przymusu osobistej aktywacji “mobilnej bankowości” np. w Oddziale banku. Nie wspomnę już o specjalnych aplikacjach, bowiem to jest istna udręka. Trzeba wyszukać nasz telefon z listy wspieranych, następnie pobrać aplikację i zainstalować na komórce… Za dużo zabawy, aby sprawdzić saldo konta!

Inna forma dostępu do konta to “stary”, dobry IVR z wybieraniem tonowym – dzwonimy do banku i słyszymy “Aby zalogować się do systemu wybierz 1….” (opis czym jest IVR: wikipedia). Tutaj jednak jest problem z interfejsem, któremu do “user friendly” dość daleko.

Co można zatem zaproponować? Ciekawym rozwiązaniem może być rozpoznawanie mowy (ang. automatic speech recognition, ASR), które pozwoli projektować elastyczne systemy transakcyjne, np. automatycznie weryfikujące użytkownika jeśli nie zna telePINu poprzez zadanie pytań o numer i serię dowodu osobistego, miejscowość urodzenia (ile osób pamięta telePIN ręka do góry!). Zatem nie musimy czekać w kolejce na Agenta, bo sami możemy się zweryfikować i dokonać danej transakcji w bardzo przyjazny sposób – po prostu mówiąc.

Ponadto, rozpoznawanie mowy daje niesamowitą swobodę w komunikacji człowiek-maszyna, bowiem pozwala zaprojektować IVR w którym wystarczy na początku powiedzieć co za transakcję chce się wykonać, a IVR już nas przekieruje w odpowiednie “miejsce”. Zdecydowanie to poprawia interakcję, a co za tym idzie doznania użytkownika z korzystania z systemu automatycznego, a to z kolei zaowocuje częstszym korzystaniem z automatu niż z rozmowy z Agentem. Dla porównania, tradycyjne systemy IVR oparte o wybieranie tonowe zmuszają nas do przechodzenia przez skomplikowane menu z wieloma różnymi opcjami.

Wracając do automatyzacji wersyfikacji użytkownika, innym bardzo ciekawym rozwiązaniem jest wykorzystanie biometryki głosu umożliwiająca zidentyfikować dzwoniącego po charakterystyce głosu. Łącząc to z technologią rozpoznawania mowy dostajemy niesamowicie user-friendly rozwiązanie. Posłużę się przykładem, aby zobrazować działanie takiego automatycznego systemu transakcyjnego. Otóż dzwoniąc na infolinię do banku wystarczy, że powiem do systemu “chcę dokonać przelewu”, a ten “zbada” mój głos biometrycznie i jeśli przejdę ten proces pozytywnie to od razu zostanę przekierowany do systemu transakcyjnego, gdzie wystarczy powiedzieć jaki przelew zdefiniowany chcę zrobić (np. “przelew do ‘pomarańczowego operatora komórkowego’…”).

Tutaj podkreślę, iż “badanie głosu” trwa około 1-2 sekund, zatem czas wykonania takiej prostej czynności jest niesłychanie krótki (w porównaniu z IVR, transakcja jest zakończona w mgnieniu oka). Po więcej informacji o samej biometryce zapraszam na stronę firmy SpeechStorm.

Dzwoniłeś kiedyś do Biura Obłsugi Klienta swojego banku, aby dowiedzieć się jakie masz saldo konta? Ja wielokrotnie miałem tą przyjemność. Niegdyś taka operacja trwała dość długo. W dzisiejszych czasach bardzo szybko możemy dowiedzieć się jakie jest aktualne saldo naszego konta dzięki zastosowaniu syntezy mowy, ale o tym napiszę na końcu. Wpierw przedstawię jak to działało w przeszłości.

Kiedyś odbywało to się w ten sposób, że należało zadzwonić do BOK i cierpliwie czekać, aż ktoś “z tamtej strony” odbierze nasz telefon. Następnie przychodził czas na autoryzację, czyli podawanie numeru PESEL, seria i nr dowodu osobistego oraz nazwisko panieńskie matki. Dopiero po tych zmaganiach Konsultant czytał przez telefon kwotę salda widniejącą w systemie. Nie wiem czy jeszcze są banki, które jeszcze tak robią, miejmy nadziej, że nie.

Spotkałem się również z rozwiązaniem opartym na nagraniach lektorskich. Polega to na tym, że tworzymy nagrania, w których lektor czyta ciągi cyfr. Następnie ta baza plików audio są dzielone na małe fragmenty i sklejane przy odczytywaniu salda konta, np. kwotę 1234 taki system przeczyta nam jako 4 osobne cyfry – ‘tysiąc’ ‘dwieście’ ‘trzydzieści’ ‘cztery’. Niestety to daje bardzo mizerny efekt.

Czas na syntezator mowy opisany na początku- jakie daje możliwości w stosunku do powyższego? Na pewno jest rozwiązaniem jakościowo znacznie lepszym, o czym możecie się przekonać na stronie say.expressivo.com gdzie można przetestować tą technologię na dowolnym tekście.

Warto również dodać, że text-to-speech (TTS) daje ogromną elastyczność, ponieważ program ten przeczyta dowolny tekst, naprawdę dowolny! Dla testów wpisz na powyższej stronie słowo “kasztypki”lub “na koncie masz 1200356 złotych” ;)

Jakie są inne korzyści? Najważniejszą korzyścią dla firm wykorzystujących tą technologie w biurach obsługi klienta to odciążenie agentów siedzących w CallCenter, ponieważ gro ich obowiązków przejmuje właśnie zautomatyzowany system obsługi klienta korzystający z TTS. Oprócz salda konta można wykorzystać tą technologię do czytania ostatnich operacji na koncie (daty, odbiorcy) czy też odczytać informację o wszczęciu postępowania egzekucyjnego. Możliwości jest od groma, a ide jedna – zaoszczędzony czas agentów przeznaczyć na inne czynności.

Od strony technicznej wygląda to w następujący sposób. Potrzebujemy platformę IVR (Interactive Voice Response), która jest podłączona do różnych baz danych w banku. Następnie integrujemy z IVRem na przykład syntezator mowy IVONA Telecom i dzięki temu w telefonicznym biurze obsługi klient możemy odczytać przez telefon… tak naprawdę wszystko.

Dodam jeszcze, że taki system jest niesamowicie skalowalny dzięki zastosowaniu protokołu MRCP, ale o tym innym razem.