Rozpoznawanie mowy w CallCenter
niedziela, 13 wrzesień 2009
Jeśli byłeś już na moim blogu to na pewno czytałeś o technologii rozpoznawania mowy (ang. Automatic Speech Recognition, ASR). Jednak dla pewności krótkie przypomnienie – w skrócie jest to technologia pozwalająca zmienić mowę na język zrozumiały dla komputerów, czyli tzw. bity. Zastosowanie tego rozwiązania jest bardzo szerokie – od dyktowania e-maili komputerowi, przez nawigację GPS, a skończywszy na usługach dostępnych przez telefon (wspomniane w tytule CallCenter – telefoniczne biuro obsługi klienta).
Zgodnie z tytułem skupię się na tym ostatnim zastosowaniu – CallCenter. Tutaj warto zacząć od problemów z jakimi musi się uporać Manadżer telefonicznego biura klienta, ponieważ to powoduje, że technologia rozpoznawania mowy jest pomocna.
Przykładowe sytuacje to brak wolnych Agentów, a masa Klientów czekających na Infolinii w kolejce, aby zostać obsłużonym. Jak temu zaradzić? Jednym z rozwiązań tego problemu jest stworzenie usług samoobsługowych, tak aby nie był potrzebny Agent. Proste prawda?
Brzmi prosto, ale niestety takie nie jest. Obecnie w Polsce jest sporo systemów automatycznych, które są nieużyteczne i denerwują użytkowników (mnie…). Dlatego też mało kto z nich korzysta z sumy wszystkich zainteresowanych (np. ~20% z 10 milionów telefonów rejestrowanych w CallCenter). Oczywiście “biznesowi” chodzi o to, aby wspomniany wyżej procent podnieść, najlepiej do 100%.
Skąd się bierze niezadowolenie, a czasami frustracja podczas korzystania z telefonicznych systemów samoobsługowych (tzw. self-service), a co za tym idzie jedynie około 20% użytkowników jest wstanie wytrzymać tą męczarnię? Otóż problem tkwi w intefejsie użytkownika, bowiem interakcja z wyżej wymienionym systemem self-service odbywa się poprzez wybieranie tonowe (tzw. DTMF). Prosta analogia – to jest tak jak obecnie korzystać z komputera za pomocą klawiatury.
Rozwiązaniem tego problemu jest między innymi technologia rozpoznawania mowy, która umożliwia stworzenie interfejsu bardziej naturalnego, opartego na mowie. Dzięki temu użytkownik może powiedzeć jaką transakcję chce dokontać (np. aktywacja roamingu). Zatem nie będzie trzeba wysłuchiwać wielu opcji i wybierać kolejne, aż do dojścia do “wybierz 9, aby aktywowaća roaming”… Tutaj posłużę się analogią do rozmowy z człowiekiem – szybciej i wygodniej jest rozmawiać niż np. prowadzić dialog wybierając opcje odpowiedzi.
Wykorzystanie technologii rozpoznawania mowy języka polskiego pozwoli na podwyższenie procentu użytkowników, którzy skorzystają z usługi self-service. Dzięki temu Manager CallCenter wypracuje oszczędności, co na pewno ucieszy właścicieli.
Jakie są inne możliwe usługi self-service z wykorzystaniem tej technologii? W kolejnym poście postaram się opisać kolejne i uzasadnić zakup technologii rozpoznawania mowy z punktu widzenia poprawy skuteczności kanałów samoobsługowych.
Dostępność bankowości elektronicznej na wakacjach?
sobota, 25 lipiec 2009
Ostatnio przeczytałem ciekawy artykuł Gazecie Prawnej dotyczący dostępności systemów bankowych podczas naszego pobytu na wakacjach, gdzie nie można skorzystać z internetowej bankowości. Okazuje się, że telefoniczne systemy automatyczne w takich wypadkach wracają do łask.
Jak w artykule napisano, są różne metody dostępu do konta bankowego przez telefon. Jedno z nich to mobilne strony internetowe. Jednak w ich przypadku należy posiadać komórkę z dużym ekranem i liczyć się z ogromnymi kosztami przesyłu danych w roamingu (jeśli jesteśmy na przykład w znanym i lubianym Egipcie to te koszty są znaczące). Ponadto możemy napotkać na bloker w postaci przymusu osobistej aktywacji “mobilnej bankowości” np. w Oddziale banku. Nie wspomnę już o specjalnych aplikacjach, bowiem to jest istna udręka. Trzeba wyszukać nasz telefon z listy wspieranych, następnie pobrać aplikację i zainstalować na komórce… Za dużo zabawy, aby sprawdzić saldo konta!
Inna forma dostępu do konta to “stary”, dobry IVR z wybieraniem tonowym – dzwonimy do banku i słyszymy “Aby zalogować się do systemu wybierz 1….” (opis czym jest IVR: wikipedia). Tutaj jednak jest problem z interfejsem, któremu do “user friendly” dość daleko.
Co można zatem zaproponować? Ciekawym rozwiązaniem może być rozpoznawanie mowy (ang. automatic speech recognition, ASR), które pozwoli projektować elastyczne systemy transakcyjne, np. automatycznie weryfikujące użytkownika jeśli nie zna telePINu poprzez zadanie pytań o numer i serię dowodu osobistego, miejscowość urodzenia (ile osób pamięta telePIN ręka do góry!). Zatem nie musimy czekać w kolejce na Agenta, bo sami możemy się zweryfikować i dokonać danej transakcji w bardzo przyjazny sposób – po prostu mówiąc.
Ponadto, rozpoznawanie mowy daje niesamowitą swobodę w komunikacji człowiek-maszyna, bowiem pozwala zaprojektować IVR w którym wystarczy na początku powiedzieć co za transakcję chce się wykonać, a IVR już nas przekieruje w odpowiednie “miejsce”. Zdecydowanie to poprawia interakcję, a co za tym idzie doznania użytkownika z korzystania z systemu automatycznego, a to z kolei zaowocuje częstszym korzystaniem z automatu niż z rozmowy z Agentem. Dla porównania, tradycyjne systemy IVR oparte o wybieranie tonowe zmuszają nas do przechodzenia przez skomplikowane menu z wieloma różnymi opcjami.
Wracając do automatyzacji wersyfikacji użytkownika, innym bardzo ciekawym rozwiązaniem jest wykorzystanie biometryki głosu umożliwiająca zidentyfikować dzwoniącego po charakterystyce głosu. Łącząc to z technologią rozpoznawania mowy dostajemy niesamowicie user-friendly rozwiązanie. Posłużę się przykładem, aby zobrazować działanie takiego automatycznego systemu transakcyjnego. Otóż dzwoniąc na infolinię do banku wystarczy, że powiem do systemu “chcę dokonać przelewu”, a ten “zbada” mój głos biometrycznie i jeśli przejdę ten proces pozytywnie to od razu zostanę przekierowany do systemu transakcyjnego, gdzie wystarczy powiedzieć jaki przelew zdefiniowany chcę zrobić (np. “przelew do ‘pomarańczowego operatora komórkowego’…”).
Tutaj podkreślę, iż “badanie głosu” trwa około 1-2 sekund, zatem czas wykonania takiej prostej czynności jest niesłychanie krótki (w porównaniu z IVR, transakcja jest zakończona w mgnieniu oka). Po więcej informacji o samej biometryce zapraszam na stronę firmy SpeechStorm.
Od marca w SpeechStorm
środa, 22 kwiecień 2009
Po ponad 3 latach pracy w IVO Software postanowiłem trochę zminić branżę (ale tylko trochę ;)). Od marca pracuję w firmie SpeechStorm, która tworzy rozwiązania automatyzujące telefoniczną obsługę klienta. Na pierwszy rzut oka nie ma to nic wspólnego z poprzednią firmą, która jest producentem syntezatora mowy IVONA. Lecz wystarczy, że zacytuję ostatnią notatkę prasową, a zobaczycie, że branże są blisko spokrewnione:
Firma SpeechStorm, wiodący dostawca rozwiązań automatyzujących telefoniczną obsługę klienta (tzw. self-service), wprowadza na polski rynek system rozpoznawania głosowego, który w znaczący sposób ułatwia pracę i korzystanie z Call i Contact Center. W dobie kryzysu innowacyjne rozwiązania SpeechStorm stanowią sprawdzony sposób na obniżenie kosztów przy jednoczesnej poprawie jakości obsługi klienta.
Polskie biuro SpeechStorm w Gdańsku, które oficjalnie rozpocząło swoją działalność w czerwcu 2008 roku, zatrudnia wysoko wykwalifikowanych programistów zaangażowanych do tej pory głównie w rozwój nowych rozwiązań automatyzujących obsługę telefoniczną, stosowanych w Europie i na Bliskim Wschodzie. Obecnie biuro zasilili specjaliści, których zadaniem jest sprzedaż rozwiązań SpeechStorm na rynku polskim i szerzej – na rynkach Europy Wschodniej.
– Już podczas pierwszych prezentacji nasze rozwiązania spotkały się z dużym zainteresowaniem polskich firm wykorzystujących w kontaktach z klientami call center, głównie z branż: telekomunikacyjnej, ubezpieczeniowej i finansowej – mówi Oliver Lennon, CEO SpeechStorm. – W obecnej trudnej sytuacji rynkowej firmy zastanawiają się, jak ciąć koszty, utrzymując jednocześnie wysoki standard obsługi klienta. Nasz system automatyzujący telefoniczną obsługę klienta (IVVO phone self-service platform) na pewno pomoże wielu przedsiębiorstwom osiągnąć te cele. Rozwiązania proponowane przez SpeechStorm z jednej strony dają firmom oszczędności, a z drugiej podnoszą komfort korzystających z ich usług i dzięki temu pozwalają na budowanie długotrwałych relacji z klientami. Cieszymy się z faktu, że jesteśmy jedną z pierwszych firm, które wprowadzają tego typu rozwiązania na polski rynek.
Rozwiązanie SpeechStorm – dzięki zastosowaniu unikatowej technologii – umożliwia zarządzanie wszystkimi usługami self-service z jednego miejsca, poprzez zwykłą przeglądarkę internetową. Platforma IVVO daje możliwość jednoczesnego wykorzystania różnych technologii: SMS, wybierania tonowego, rozpoznawania mowy, outbound IVR czy Video IVR. Platforma umożliwia stopniową rozbudowę stosowanych rozwiązań. Tę zaletę docenią na pewno firmy, planujące długoterminowe inwestycje w automatyzację telefonicznej obsługi klienta.
SpeechStorm oferuje rozwiązania, dzięki którym korzystająca z nich firma może dać swoim klientom wybór sposobu, w jaki chcą z nią komunikować. Dzwoniący nie powinni być ograniczani do używania najprostszych, często powodujących frustrację, systemów bazujących na wybieraniu tonowym. Połączenie systemu IVR z rozpoznawaniem mowy daje dzwoniącemu o wiele więcej możliwości. Nowe rozwiązania, takie jak prezentacja wizualna opcji IVR, idą jeszcze dalej, umożliwiając wizualne przedstawienie klientowi informacji i dokonywanie transakcji na wzór bankowości elektronicznej. Firmie, stosującej kombinację różnych technologii, dobraną do potrzeb jej klientów, wykorzystanie rozwiązań self-service SpeechStorm daje możliwość podwyższenia standardów obsługi, mocniejszego przywiązania obecnych i pozyskania nowych klientów.
– Aby lepiej zobrazować to, co chcemy zaproponować na polskim rynku, posłużę się przykładem dotyczącym branży ubezpieczeniowej – mówi Oliver Lennon, CEO SpeechStorm. – W biurze SpeechStorm w Gdańsku pracujemy nad polską wersją aplikacji „Quick Quote”, opartą o rozpoznawanie mowy języka polskiego. Pozwoli ona „porozmawiać” z systemem na temat kwoty ubezpieczenia samochodowego. Po podaniu (wypowiedzeniu) marki, roku produkcji i innych koniecznych danych, dzwoniący otrzyma wycenę składki. Wszystko to stanie się bez angażowania człowieka (agenta, konsultanta Call Center). Jeśli oferta odpowiada klientowi, system przełącza go do agenta, który już tylko finalizuje transakcję. Dla klienta wygoda i oszczędność czasu. Dla firmy korzyść z zadowolenia klienta i oszczędność wynikająca z uproszczenia obsługi.
Najlepszym przykładem korzyści wynikających ze stosowania platformy IVVO firmy SpeechStorm jest Allied Irish Bank (największy akcjonariusz banku BZ WBK), największy bank detaliczny w Irlandii. AIB wdrożył rozwiązania SpeechStorm w ponad 110 oddziałach i w ten sposób umożliwił swoim klientom VIP bezpośrednie połączenia z ich osobistymi doradcami i szybki dostęp do informacji, dotyczących np. wymiany walut. Innym przykładem jest eircom – największy irlandzki dostawca usług telekomunikacyjnych, który wykorzystał rozwiązania SpeechStorm jako „inteligentny system telefonicznej obsługi klienta”, który przyjmuje ponad 7,5 miliona rozmów telefonicznych rocznie. Dzięki nowym rozwiązaniom eircom zredukował koszty operacyjne aż o 20 proc. w skali roku.
O SpeechStorm
SpeechStorm specjalizuje się w tworzeniu rozwiązań automatyzujących telefoniczną obsługę klienta.
SpeechStorm oferuje kombinacje technologii precyzyjnie dobranych do potrzeb klienta, wykorzystujących: wybieranie tonowe, SMS, rozpoznawanie mowy i wizualne IVR. Dzięki rozwiązaniom proponowanym przez SpeechStorm zwykły telefon zmienia się w interaktywne narzędzie, które umożliwia prosty i wygodny dostęp do informacji oraz interaktywny kontakt klienta z firmą.
SpeechStorm zaufały m.in.: Dixons Stores Group International (DSGI), SITA Suez, eircom, Northern Ireland Electricity, Etisalat i Comet.
SpeechStrom jest częścią firmy Kainos, jednego z wiodących integratorów systemów informatycznych w Wielkiej Brytanii i Irlandii. Kainos zatrudnia ponad 280 wysoko wykwalifikowanych konsultantów. Firma projektuje i wdraża rozwiązania IT, mające na celu usprawnienie procesów biznesowych w organizacjach sektora finansowego oraz publicznego. Przez 20 lat działalności Kainos, jego doświadczeniu i profesjonalizmowi zaufały największe organizacje w Wielkiej Brytanii i Irlandii. Są wśród nich: AIB, the Audit Commission, Shipowners, Bank of Ireland, Hibernian, Northern Ireland Civil Service, the Information Commissioners Office oraz permanent tsb.Więcej na www.speechstorm.com
Jeśli chcesz się dowiedzieć więcej na temat co my tak na prawdę robimy – co oznaczaję mało mówiące skróty jak IVR, outbound itd – to zapraszam na moją prezentację podczas Seminarium Nowych Technologii i Biznesu Netvision (sobota, Politechnika Gdańska).
Kiedy zastąpią nas roboty?
czwartek, 5 luty 2009
Jeśli oglądałeś/aś film “Człowiek przyszłości” (Bicentennial Man) z Robin Williamsem lub “Łowcę Androidów” (Blade Runner) z Harrisonem Fordem to pewnie wiesz o co mi chodzi… :) Jeśli nie oglądałeś/aś tych filmów to koniecznie wypożycz DVD lub skorzystaj z usługi VOD (video-on-demand).
Nie będę się rozpisywał, gdzie taki robot może nas zastąpić, bo sprawa wydaje się chyba oczywista – praktycznie wszędzie, w zależności od zaawansowania technologicznego :)
Do rzeczy. Od dłuższego czasu można zaobserwować w prasie duże zainteresowanie tematyką robotów, rozpoznawaniem mowy, syntezą mowy czy sztuczną inteligencją. Zwiększona ilość artykułów pojawiających się w mediach o tej tematyce wiąże się oczywiście z rozwojem wyżej wymienionych technologii. Dlatego też jako wstęp do rozważań opiszę stan dzisiejszy.
Jako pierwszy element weźmy obudowę robotów, czyli ciało.
Wystarczy zobaczyć jak wyglądają dzisiejsze maszyny człekokształtne i co potrafią. Zapraszam na stronę wikipedii poświęconą hasłu “robot” lub “android” (małe uściślenie – robot przypominający człowieka to android), a dowiecie się więcej o ASIMO firmy Honda, robocie Toyoty czy Repliee Q1. Jak można zauważyć na zdjęciach dołączonych do opisów na wikipedii, maszyny te posturą przypominają już ludzi – mają nogi, palce u rąk, głowę, a nawet skórę (z silikonu). Ponadto część mechaniczna została dopracowana na tyle, że roboty mogą chodzić po schodach, biegać, łapać piłki.
Przechodzimy teraz do kolejnego etapu – rozumienie co do nich się mówi.
W tym wypadku należy zacząć od technologii rozpoznawania mowy (ang. automatic speech recognition, ASR), która zmieniają wymowę w zrozumiały dla komputerów język – zero i jedynki (bity). Systemy ASR od dawna są stosowane w rozwiązaniach telekomunikacyjnych czy nawigacji samochodowej – wystarczy powiedzieć gdzie chcesz jechać, a nawigacja to rozpozna i pokaże drogę. Coraz śmielej rozpoznawanie mowy wkraczaj do naszych telefonów komórkowych czy gier komputerowych… (poszukaj informacji o grze strategicznej EndWar, a dowiesz się że możesz sterować jednostkami wojskowymi wypowiadając komendy).
Skoro roboty i androidy umieją już przetworzyć nasze komendy głosowe na komputerowe bity to pozostaje jeszcze kwestia zrozumienia sensu samej komendy, czyli rozumienie języka naturalne (ang. Natural Language Processing) - mózg komputera.
Technologia NLP staje się coraz popularniejsza dzięki chatterbotom (zwane też chatbotami lub awatarami), z którymi możesz porozmawiać jak z człowiekiem (lub pracownikiem firmy) na temat np. oferty firmy ubezpieczeniowej czy banku. Oczywiście w dniu dzisiejszym sposób komunikacji z chatbotami odbywa się poprzez klawiaturę dzięki czemu nie wymaga rozpoznawania mowy.
No i na koniec – struny głosowe.
Za tą funkcję odpowiadają syntezatory mowy (ang. Text-to-speech), czyli oprogramowanie zmieniające wspomniane wyżej bity i przygotowaną odpowiedź na podstawie NLP na ludzką mowę. Dzięki temu komunikacja z maszyną jest dwustronna – my do niej mówimy, ona to rozumie i nam odpowiada. Tutaj jedynie wspomnę, że dzięki głośnikom kierunkowym wypowiedz takiego androida będzie słyszana jedynie przez odbiorcę.
A co z oczami?
O mały włos a bym zapomniał :) Oczywiście roboty mogą być wyposażone w kamery wysokiej rozdzielczości i rozpoznawanie obrazu. Tego typu technologie są już dostępne i mogą rozpoznać: pisownię, twarz, obiekt…
Skoro już wiemy, że w owych czasach są dostępne “podsystemy” odpowiedzialne za takie funkcję jak ruch, rozumienie, mówienie oraz widzenie to czemu nie ma jeszcze robotów w sklepach czy McDonaldach?
Po pierwsze – niektóre technologie nie są dostatecznie dopracowane. Zatem jakość takiego androida nie jest wystarczająca, aby zastąpić człowieka, a co za tym idzie, mogą przynieść więcej szkody niż pożytku. Jednak należy tutaj podkreślić, że dzięki coraz większej ilości zastosowań i wdrożeń poszczególnych technologii, stają się one bardziej dopracowane.
Po drugie – na dzień dzisiejszy cena takich maszyn człekokształtnych może być (jest?) astronomiczna, przez co nie ma szans na masowość. Jednak im większa popularność danych “podsystemów” (patrz akapit wyżej), tym niższe ceny. Zatem można się spodziewać spadku ceny na przestrzeni najbliższych lat.
Po trzecie – większość osób boi się takich maszyn (wykluczam Japonię ;)), a tylko wtedy będzie masowość, gdy odbiorca jest masowy.
Zatem czy rzeczywiście możemy się obawiać naszej pozycji względem maszyn? Przez najbliższe dekady raczej nie :) Jednak z doświadczenia życiowego wiem, że ryzykownie jest powiedzieć “nie, maszyny nie zastąpią nas nigdy”. Dlaczego? Czy ktokolwiek 100 lat temu spodziewał się lotów na księżyc, wydajnych komputerów zamkniętych w obudowie wielkości książki (netbooki) czy też globalnej sieci (Internet)? Żyjemy w niesamowitych czasach, świat zmienia się na naszych oczach i trudno nie odnieść wrażenia, że za kolejne 10 lat rzeczywistość będzie zupełnie inna.
Wystarczy zauważyć, że już teraz roboty wkradają się do naszego życia zastępując człowieka. Zaczynamy być przyzwyczajani do różnego rodzaju maszyn automatyzujących pewne czynności (technologie typu self-service): w bankach możesz skorzystać bankomatu czy wrzutomatu, dzwoniąc do banku możesz sam dokonać przelewu dzięki systemowi IVR, a w centrach handlowych dowiesz się gdzie kupić perfumy dzięki elektronicznym punktom informacyjnym.
Zatem robot (android) to tak naprawdę człekokształtna technologia umożliwiająca automatycznie wykonać pewne czynności, na przykład obsłużyć w sklepie Klienta… Niech za przykład takiej “automatyzacji” posłuży nam android pełniący funkcję informacyjną przy wejściu na Uczelni w Tokio (niestety nie mogę znaleźć informacji o niej, chodzi o Saja). Natomiast tuż za rogiem pojawiają się Infokioski , które będą “nieruchomym” robotem (Infokiosk wg pl.wikipediaorg: komputer, którego zadaniem jest świadczenie określonych usług, np. informacja turystyczna, rezerwacja biletów; zazwyczaj wyposażony jest w ekran dotykowy usprawniający obsługę)…
Co ciekawe, według ostatnich badań Hiszpańskich naukowców już za około 12 lat będziemy mieli do dyspozycji roboty, które mogą nas wyręczyć w robieniu kawy czy włożeniu naczyń do zmywarki, a tym samym, uzależnimy się od nich tak jak jesteśmy zależni od telefonów komórkowych czy samochodów. Więcej o tym badaniu www.supermozg.pl.
Reasumując ten długi wpis, dzięki postępowi wyżej wymienione technologie wkraczają w kolejne sfery naszego życia. Dlatego też jestem zdania, że w przyszłości ludzie będą pracować jedynie na stanowiskach wymagających umiejętności, których nie da się zatomatyzować, a na pozostałych będą pracować roboty w różnych formach.