Rozpoznawanie mowy w CallCenter

niedziela, 13 wrzesień 2009

Jeśli byłeś już na moim blogu to na pewno czytałeś o technologii rozpoznawania mowy (ang. Automatic Speech Recognition, ASR). Jednak dla pewności krótkie przypomnienie – w skrócie jest to technologia pozwalająca zmienić mowę na język zrozumiały dla komputerów, czyli tzw. bity. Zastosowanie tego rozwiązania jest bardzo szerokie – od dyktowania e-maili komputerowi, przez nawigację GPS, a skończywszy na usługach dostępnych przez telefon (wspomniane w tytule CallCenter – telefoniczne biuro obsługi klienta).

Zgodnie z tytułem skupię się na tym ostatnim zastosowaniu – CallCenter. Tutaj warto zacząć od problemów z jakimi musi się uporać Manadżer telefonicznego biura klienta, ponieważ to powoduje, że technologia rozpoznawania mowy jest pomocna.

Przykładowe sytuacje to brak wolnych Agentów, a masa Klientów czekających na Infolinii w kolejce, aby zostać obsłużonym. Jak temu zaradzić? Jednym z rozwiązań tego problemu jest stworzenie usług samoobsługowych, tak aby nie był potrzebny Agent. Proste prawda?

Brzmi prosto, ale niestety takie nie jest. Obecnie w Polsce jest sporo systemów automatycznych, które są nieużyteczne i denerwują użytkowników (mnie…). Dlatego też mało kto z nich korzysta z sumy wszystkich zainteresowanych (np. ~20% z 10 milionów telefonów rejestrowanych w CallCenter). Oczywiście “biznesowi” chodzi o to, aby wspomniany wyżej procent podnieść, najlepiej do 100%.

Skąd się bierze niezadowolenie, a czasami frustracja podczas korzystania z telefonicznych systemów samoobsługowych (tzw. self-service), a co za tym idzie jedynie około 20% użytkowników jest wstanie wytrzymać tą męczarnię? Otóż problem tkwi w intefejsie użytkownika, bowiem interakcja z wyżej wymienionym systemem self-service odbywa się poprzez wybieranie tonowe (tzw. DTMF). Prosta analogia – to jest tak jak obecnie korzystać z komputera za pomocą klawiatury.

Rozwiązaniem tego problemu jest między innymi technologia rozpoznawania mowy, która umożliwia stworzenie interfejsu bardziej naturalnego, opartego na mowie. Dzięki temu użytkownik może powiedzeć jaką transakcję chce dokontać (np. aktywacja roamingu). Zatem nie będzie trzeba wysłuchiwać wielu opcji i wybierać kolejne, aż do dojścia do “wybierz 9, aby aktywowaća roaming”… Tutaj posłużę się analogią do rozmowy z człowiekiem – szybciej i wygodniej jest rozmawiać niż np. prowadzić dialog wybierając opcje odpowiedzi.

Wykorzystanie technologii rozpoznawania mowy języka polskiego pozwoli na podwyższenie procentu użytkowników, którzy skorzystają z usługi self-service. Dzięki temu Manager CallCenter wypracuje oszczędności, co na pewno ucieszy właścicieli.

Jakie są inne możliwe usługi self-service z wykorzystaniem tej technologii? W kolejnym poście postaram się opisać kolejne i uzasadnić zakup technologii rozpoznawania mowy z punktu widzenia poprawy skuteczności kanałów samoobsługowych.

Wrażenia z CeBIT 2008

czwartek, 24 kwiecień 2008

Wielka impreza branży IT zakończona! Mam na myśli targi IT w Hannover, czyli CeBIT. Przyznam się szczerze, że byłem tam pierwszy raz. Jak tam było? Co ciekawego widziałem? Jak przetrwałem te wszystkie dni? Postaram się odpowiedzieć na te pytania poniżej.

Wyprawa na CeBIT przebiegła bezboleśnie. Trasa jest dość prosta i trudno się zgubić. Natomiast jazda po niemieckich autostradach to czysta przyjemność, choć nudna.

Obszar targów jest ogromny. Nie da się przejść wszystkich hal w jeden dzień. Zakres wystał był ogromny – od rozwiązań serwerowych, CallCenter, Unified Communication przez rozrywkę w postaci gier i konsol, po obudowy komórek, kabelki czy wtyczki.

Mnie szczególnie interesował temat związany z telekomunikacją, m.in. rozwiązania typu Unified Comminications. Rozwiązanie UC wywarł na mnie największe wrażenie. Nie wystarczą tutaj słowa, trzeba zobaczyć działanie takiej aplikacji. W skrócie powiem, że UC daje agentom w CallCenter pełną swobodę w komunikacji z klientem przeróżnymi kanałami… Naprawdę fajna sprawa :)

Żeby podkreślić moc i przyszłość tego typu narzędzi dodam, że obecnie wszystkie największe firmy tworzące rozwiązania Call/ContactCenter intensywnie pracują nad stworzeniem lub dopieszczeniem produktów oferujących funkcjonalność UC (m.in. Avaya, Cisco, Microsoft itd itd).

Pobyt w Hannoverze przebiegł bardzo miło. Na obszarze targów było wiele punktów gastronomicznych, także nie było problemów z lunchem czy zakupem kawy. Wszystko było doskonale zorganizowane oraz pełno punktów informacyjnych rozmieszczonych po wszystkich halach.

Mam cichą nadzieję, że uda mi się pojechać na CeBIT w przyszłym roku :)

Dzwoniłeś kiedyś do Biura Obłsugi Klienta swojego banku, aby dowiedzieć się jakie masz saldo konta? Ja wielokrotnie miałem tą przyjemność. Niegdyś taka operacja trwała dość długo. W dzisiejszych czasach bardzo szybko możemy dowiedzieć się jakie jest aktualne saldo naszego konta dzięki zastosowaniu syntezy mowy, ale o tym napiszę na końcu. Wpierw przedstawię jak to działało w przeszłości.

Kiedyś odbywało to się w ten sposób, że należało zadzwonić do BOK i cierpliwie czekać, aż ktoś “z tamtej strony” odbierze nasz telefon. Następnie przychodził czas na autoryzację, czyli podawanie numeru PESEL, seria i nr dowodu osobistego oraz nazwisko panieńskie matki. Dopiero po tych zmaganiach Konsultant czytał przez telefon kwotę salda widniejącą w systemie. Nie wiem czy jeszcze są banki, które jeszcze tak robią, miejmy nadziej, że nie.

Spotkałem się również z rozwiązaniem opartym na nagraniach lektorskich. Polega to na tym, że tworzymy nagrania, w których lektor czyta ciągi cyfr. Następnie ta baza plików audio są dzielone na małe fragmenty i sklejane przy odczytywaniu salda konta, np. kwotę 1234 taki system przeczyta nam jako 4 osobne cyfry – ‘tysiąc’ ‘dwieście’ ‘trzydzieści’ ‘cztery’. Niestety to daje bardzo mizerny efekt.

Czas na syntezator mowy opisany na początku- jakie daje możliwości w stosunku do powyższego? Na pewno jest rozwiązaniem jakościowo znacznie lepszym, o czym możecie się przekonać na stronie say.expressivo.com gdzie można przetestować tą technologię na dowolnym tekście.

Warto również dodać, że text-to-speech (TTS) daje ogromną elastyczność, ponieważ program ten przeczyta dowolny tekst, naprawdę dowolny! Dla testów wpisz na powyższej stronie słowo “kasztypki”lub “na koncie masz 1200356 złotych” ;)

Jakie są inne korzyści? Najważniejszą korzyścią dla firm wykorzystujących tą technologie w biurach obsługi klienta to odciążenie agentów siedzących w CallCenter, ponieważ gro ich obowiązków przejmuje właśnie zautomatyzowany system obsługi klienta korzystający z TTS. Oprócz salda konta można wykorzystać tą technologię do czytania ostatnich operacji na koncie (daty, odbiorcy) czy też odczytać informację o wszczęciu postępowania egzekucyjnego. Możliwości jest od groma, a ide jedna – zaoszczędzony czas agentów przeznaczyć na inne czynności.

Od strony technicznej wygląda to w następujący sposób. Potrzebujemy platformę IVR (Interactive Voice Response), która jest podłączona do różnych baz danych w banku. Następnie integrujemy z IVRem na przykład syntezator mowy IVONA Telecom i dzięki temu w telefonicznym biurze obsługi klient możemy odczytać przez telefon… tak naprawdę wszystko.

Dodam jeszcze, że taki system jest niesamowicie skalowalny dzięki zastosowaniu protokołu MRCP, ale o tym innym razem.