Od marca w SpeechStorm

środa, 22 kwiecień 2009

Po ponad 3 latach pracy w IVO Software postanowiłem trochę zminić branżę (ale tylko trochę ;)). Od marca pracuję w firmie SpeechStorm, która tworzy rozwiązania automatyzujące telefoniczną obsługę klienta. Na pierwszy rzut oka nie ma to nic wspólnego z poprzednią firmą, która jest producentem syntezatora mowy IVONA. Lecz wystarczy, że zacytuję ostatnią notatkę prasową, a zobaczycie, że branże są blisko spokrewnione:

Firma SpeechStorm, wiodący dostawca rozwiązań automatyzujących telefoniczną obsługę klienta (tzw. self-service), wprowadza na polski rynek system rozpoznawania głosowego, który w znaczący sposób ułatwia pracę i korzystanie z Call i Contact Center. W dobie kryzysu innowacyjne rozwiązania SpeechStorm stanowią sprawdzony sposób na obniżenie kosztów przy jednoczesnej poprawie jakości obsługi klienta.

Polskie biuro SpeechStorm w Gdańsku, które oficjalnie rozpocząło swoją działalność w czerwcu 2008 roku, zatrudnia wysoko wykwalifikowanych programistów zaangażowanych do tej pory głównie w rozwój nowych rozwiązań automatyzujących obsługę telefoniczną, stosowanych w Europie i na Bliskim Wschodzie. Obecnie biuro zasilili specjaliści, których zadaniem jest sprzedaż rozwiązań SpeechStorm na rynku polskim i szerzej – na rynkach Europy Wschodniej.

– Już podczas pierwszych prezentacji nasze rozwiązania spotkały się z dużym zainteresowaniem polskich firm wykorzystujących w kontaktach z klientami call center, głównie z branż: telekomunikacyjnej, ubezpieczeniowej i finansowej – mówi Oliver Lennon, CEO SpeechStorm. – W obecnej trudnej sytuacji rynkowej firmy zastanawiają się, jak ciąć koszty, utrzymując jednocześnie wysoki standard obsługi klienta. Nasz system automatyzujący telefoniczną obsługę klienta (IVVO phone self-service platform) na pewno pomoże wielu przedsiębiorstwom osiągnąć te cele. Rozwiązania proponowane przez SpeechStorm z jednej strony dają firmom oszczędności, a z drugiej podnoszą komfort korzystających z ich usług i dzięki temu pozwalają na budowanie długotrwałych relacji z klientami. Cieszymy się z faktu, że jesteśmy jedną z pierwszych firm, które wprowadzają tego typu rozwiązania na polski rynek.

Rozwiązanie SpeechStorm – dzięki zastosowaniu unikatowej technologii – umożliwia zarządzanie wszystkimi usługami self-service z jednego miejsca, poprzez zwykłą przeglądarkę internetową. Platforma IVVO daje możliwość jednoczesnego wykorzystania różnych technologii: SMS, wybierania tonowego, rozpoznawania mowy, outbound IVR czy Video IVR. Platforma umożliwia stopniową rozbudowę stosowanych rozwiązań. Tę zaletę docenią na pewno firmy, planujące długoterminowe inwestycje w automatyzację telefonicznej obsługi klienta.

SpeechStorm oferuje rozwiązania, dzięki którym korzystająca z nich firma może dać swoim klientom wybór sposobu, w jaki chcą z nią komunikować. Dzwoniący nie powinni być ograniczani do używania najprostszych, często powodujących frustrację, systemów bazujących na wybieraniu tonowym. Połączenie systemu IVR z rozpoznawaniem mowy daje dzwoniącemu o wiele więcej możliwości. Nowe rozwiązania, takie jak prezentacja wizualna opcji IVR, idą jeszcze dalej, umożliwiając wizualne przedstawienie klientowi informacji i dokonywanie transakcji na wzór bankowości elektronicznej. Firmie, stosującej kombinację różnych technologii, dobraną do potrzeb jej klientów, wykorzystanie rozwiązań self-service SpeechStorm daje możliwość podwyższenia standardów obsługi, mocniejszego przywiązania obecnych i pozyskania nowych klientów.

– Aby lepiej zobrazować to, co chcemy zaproponować na polskim rynku, posłużę się przykładem dotyczącym branży ubezpieczeniowej – mówi Oliver Lennon, CEO SpeechStorm. – W biurze SpeechStorm w Gdańsku pracujemy nad  polską wersją aplikacji „Quick Quote”, opartą o rozpoznawanie mowy języka polskiego. Pozwoli ona „porozmawiać” z systemem na temat kwoty ubezpieczenia samochodowego. Po podaniu (wypowiedzeniu) marki, roku produkcji i innych koniecznych danych, dzwoniący otrzyma wycenę składki. Wszystko to stanie się bez angażowania człowieka (agenta, konsultanta Call Center). Jeśli oferta odpowiada klientowi, system przełącza go do agenta, który już tylko finalizuje transakcję. Dla klienta wygoda i oszczędność czasu. Dla firmy korzyść z zadowolenia klienta i oszczędność wynikająca z uproszczenia obsługi.

Najlepszym przykładem korzyści wynikających ze stosowania platformy IVVO firmy SpeechStorm jest Allied Irish Bank (największy akcjonariusz banku BZ WBK), największy bank detaliczny w Irlandii. AIB wdrożył rozwiązania SpeechStorm w ponad 110 oddziałach i w ten sposób umożliwił swoim klientom VIP bezpośrednie połączenia z ich osobistymi doradcami i szybki dostęp do informacji, dotyczących np. wymiany walut. Innym przykładem jest eircom – największy irlandzki dostawca usług telekomunikacyjnych, który wykorzystał rozwiązania SpeechStorm jako „inteligentny system telefonicznej obsługi klienta”, który przyjmuje ponad 7,5 miliona rozmów telefonicznych rocznie. Dzięki nowym rozwiązaniom eircom zredukował koszty operacyjne aż o 20 proc. w skali roku.

O SpeechStorm
SpeechStorm specjalizuje się w tworzeniu rozwiązań automatyzujących telefoniczną obsługę klienta.
SpeechStorm oferuje kombinacje technologii precyzyjnie dobranych do potrzeb klienta, wykorzystujących: wybieranie tonowe, SMS, rozpoznawanie mowy i wizualne IVR. Dzięki rozwiązaniom proponowanym przez SpeechStorm zwykły telefon zmienia się w interaktywne narzędzie, które umożliwia prosty i wygodny dostęp do informacji oraz interaktywny kontakt klienta z firmą.
SpeechStorm zaufały m.in.: Dixons Stores Group International (DSGI), SITA Suez, eircom, Northern Ireland Electricity, Etisalat i Comet.
SpeechStrom jest częścią firmy Kainos, jednego z wiodących integratorów systemów informatycznych w Wielkiej Brytanii i Irlandii. Kainos zatrudnia ponad 280 wysoko wykwalifikowanych konsultantów. Firma projektuje i wdraża rozwiązania IT, mające na celu usprawnienie procesów biznesowych w organizacjach sektora finansowego oraz publicznego. Przez 20 lat działalności Kainos, jego doświadczeniu i profesjonalizmowi zaufały największe organizacje w Wielkiej Brytanii i Irlandii. Są wśród nich: AIB, the Audit Commission, Shipowners, Bank of Ireland, Hibernian, Northern Ireland Civil Service, the Information Commissioners Office oraz permanent tsb.

Więcej na www.speechstorm.com

Jeśli chcesz się dowiedzieć więcej na temat co my tak na prawdę robimy – co oznaczaję mało mówiące skróty jak IVR, outbound itd – to zapraszam na moją prezentację podczas Seminarium Nowych Technologii i Biznesu Netvision (sobota, Politechnika Gdańska).

Kiedy zastąpią nas roboty?

czwartek, 5 luty 2009

Jeśli oglądałeś/aś film “Człowiek przyszłości” (Bicentennial Man) z Robin Williamsem lub “Łowcę Androidów” (Blade Runner) z Harrisonem Fordem to pewnie wiesz o co mi chodzi… :) Jeśli nie oglądałeś/aś tych filmów to koniecznie wypożycz DVD lub skorzystaj z usługi VOD (video-on-demand).

Nie będę się rozpisywał, gdzie taki robot może nas zastąpić, bo sprawa wydaje się chyba oczywista – praktycznie wszędzie, w zależności od zaawansowania technologicznego :)

Do rzeczy. Od dłuższego czasu można zaobserwować w prasie duże zainteresowanie tematyką robotów, rozpoznawaniem mowy, syntezą mowy czy sztuczną inteligencją. Zwiększona ilość artykułów pojawiających się w mediach o tej tematyce wiąże się oczywiście z rozwojem wyżej wymienionych technologii. Dlatego też jako wstęp do rozważań opiszę stan dzisiejszy.

Jako pierwszy element weźmy obudowę robotów, czyli ciało.

Wystarczy zobaczyć jak wyglądają dzisiejsze maszyny człekokształtne i co potrafią. Zapraszam na stronę wikipedii poświęconą hasłu “robot” lub “android” (małe uściślenie – robot przypominający człowieka to android), a dowiecie się więcej o ASIMO firmy Honda, robocie Toyoty czy Repliee Q1. Jak można zauważyć na zdjęciach dołączonych do opisów na wikipedii, maszyny te posturą przypominają już ludzi – mają nogi, palce u rąk, głowę, a nawet skórę (z silikonu). Ponadto część mechaniczna została dopracowana na tyle, że roboty mogą chodzić po schodach, biegać, łapać piłki.

Przechodzimy teraz do kolejnego etapu – rozumienie co do nich się mówi.

W tym wypadku należy zacząć od technologii rozpoznawania mowy (ang. automatic speech recognition, ASR), która zmieniają wymowę w zrozumiały dla komputerów język – zero i jedynki (bity). Systemy ASR od dawna są stosowane w rozwiązaniach telekomunikacyjnych czy nawigacji samochodowej – wystarczy powiedzieć gdzie chcesz jechać, a nawigacja to rozpozna i pokaże drogę. Coraz śmielej rozpoznawanie mowy wkraczaj do naszych telefonów komórkowych czy gier komputerowych… (poszukaj informacji o grze strategicznej EndWar, a dowiesz się  że możesz sterować jednostkami wojskowymi wypowiadając komendy).

Skoro roboty i androidy umieją już przetworzyć nasze komendy głosowe na komputerowe bity to pozostaje jeszcze kwestia zrozumienia sensu samej komendy, czyli rozumienie języka naturalne (ang. Natural Language Processing) -  mózg komputera.

Technologia NLP staje się coraz popularniejsza dzięki chatterbotom (zwane też chatbotami lub awatarami), z którymi możesz porozmawiać jak z człowiekiem (lub pracownikiem firmy) na temat np. oferty firmy ubezpieczeniowej czy banku. Oczywiście w dniu dzisiejszym sposób komunikacji z chatbotami odbywa się poprzez klawiaturę dzięki czemu nie wymaga rozpoznawania mowy.

No i na koniec – struny głosowe.

Za tą funkcję odpowiadają syntezatory mowy (ang. Text-to-speech), czyli oprogramowanie zmieniające wspomniane wyżej bity i przygotowaną odpowiedź na podstawie NLP na ludzką mowę. Dzięki temu komunikacja z maszyną jest dwustronna – my do niej mówimy, ona to rozumie i nam odpowiada. Tutaj jedynie wspomnę, że dzięki głośnikom kierunkowym wypowiedz takiego androida będzie słyszana jedynie przez odbiorcę.

A co z oczami?

O mały włos a bym zapomniał :) Oczywiście roboty mogą być wyposażone w kamery wysokiej rozdzielczości i rozpoznawanie obrazu. Tego typu technologie są już dostępne i mogą rozpoznać: pisownię, twarz, obiekt…

Skoro już wiemy, że w owych czasach są dostępne “podsystemy” odpowiedzialne za takie funkcję jak ruch, rozumienie, mówienie oraz widzenie to czemu nie ma jeszcze robotów w sklepach czy McDonaldach?

Po pierwsze – niektóre technologie nie są dostatecznie dopracowane. Zatem jakość takiego androida nie jest wystarczająca, aby zastąpić człowieka, a co za tym idzie, mogą przynieść więcej szkody niż pożytku. Jednak należy tutaj podkreślić, że dzięki coraz większej ilości zastosowań i wdrożeń poszczególnych technologii, stają się one bardziej dopracowane.

Po drugie – na dzień dzisiejszy cena takich maszyn człekokształtnych może być (jest?) astronomiczna, przez co nie ma szans na masowość. Jednak im większa popularność danych “podsystemów” (patrz akapit wyżej), tym niższe ceny. Zatem można się spodziewać spadku ceny na przestrzeni najbliższych lat.

Po trzecie – większość osób boi się takich maszyn (wykluczam Japonię ;)), a tylko wtedy będzie masowość, gdy odbiorca jest masowy.

Zatem czy rzeczywiście możemy się obawiać naszej pozycji względem maszyn? Przez najbliższe dekady raczej nie :) Jednak z doświadczenia życiowego wiem, że ryzykownie jest powiedzieć “nie, maszyny nie zastąpią nas nigdy”. Dlaczego? Czy ktokolwiek 100 lat temu spodziewał się lotów na księżyc, wydajnych komputerów zamkniętych w obudowie wielkości książki (netbooki) czy też globalnej sieci (Internet)? Żyjemy w niesamowitych czasach, świat zmienia się na naszych oczach i trudno nie odnieść wrażenia, że za kolejne 10 lat rzeczywistość będzie zupełnie inna.

Wystarczy zauważyć, że już teraz roboty wkradają się do naszego życia zastępując człowieka. Zaczynamy być przyzwyczajani do różnego rodzaju maszyn automatyzujących pewne czynności (technologie typu self-service): w bankach możesz skorzystać bankomatu czy wrzutomatu, dzwoniąc do banku możesz sam dokonać przelewu dzięki systemowi IVR, a w centrach handlowych dowiesz się gdzie kupić perfumy dzięki elektronicznym punktom informacyjnym.

Zatem robot (android) to tak naprawdę człekokształtna technologia umożliwiająca automatycznie wykonać pewne czynności, na przykład obsłużyć w sklepie Klienta… Niech za przykład takiej “automatyzacji” posłuży nam android pełniący funkcję informacyjną przy wejściu na Uczelni w Tokio (niestety nie mogę znaleźć informacji o niej, chodzi o Saja). Natomiast tuż za rogiem pojawiają się Infokioski , które będą “nieruchomym” robotem (Infokiosk wg pl.wikipediaorg: komputer, którego zadaniem jest świadczenie określonych usług, np. informacja turystyczna, rezerwacja biletów; zazwyczaj wyposażony jest w ekran dotykowy usprawniający obsługę)…

Co ciekawe, według ostatnich badań Hiszpańskich naukowców już za około 12 lat będziemy mieli do dyspozycji roboty, które mogą nas wyręczyć w robieniu kawy czy włożeniu naczyń do zmywarki, a tym samym, uzależnimy się od nich tak jak jesteśmy zależni od telefonów komórkowych czy samochodów. Więcej o tym badaniu www.supermozg.pl.

Reasumując ten długi wpis, dzięki postępowi wyżej wymienione technologie wkraczają w kolejne sfery naszego życia. Dlatego też jestem zdania, że w przyszłości ludzie będą pracować jedynie na stanowiskach wymagających umiejętności, których nie da się zatomatyzować, a na pozostałych będą pracować roboty w różnych formach.

Dzwoniłeś kiedyś do Biura Obłsugi Klienta swojego banku, aby dowiedzieć się jakie masz saldo konta? Ja wielokrotnie miałem tą przyjemność. Niegdyś taka operacja trwała dość długo. W dzisiejszych czasach bardzo szybko możemy dowiedzieć się jakie jest aktualne saldo naszego konta dzięki zastosowaniu syntezy mowy, ale o tym napiszę na końcu. Wpierw przedstawię jak to działało w przeszłości.

Kiedyś odbywało to się w ten sposób, że należało zadzwonić do BOK i cierpliwie czekać, aż ktoś “z tamtej strony” odbierze nasz telefon. Następnie przychodził czas na autoryzację, czyli podawanie numeru PESEL, seria i nr dowodu osobistego oraz nazwisko panieńskie matki. Dopiero po tych zmaganiach Konsultant czytał przez telefon kwotę salda widniejącą w systemie. Nie wiem czy jeszcze są banki, które jeszcze tak robią, miejmy nadziej, że nie.

Spotkałem się również z rozwiązaniem opartym na nagraniach lektorskich. Polega to na tym, że tworzymy nagrania, w których lektor czyta ciągi cyfr. Następnie ta baza plików audio są dzielone na małe fragmenty i sklejane przy odczytywaniu salda konta, np. kwotę 1234 taki system przeczyta nam jako 4 osobne cyfry – ‘tysiąc’ ‘dwieście’ ‘trzydzieści’ ‘cztery’. Niestety to daje bardzo mizerny efekt.

Czas na syntezator mowy opisany na początku- jakie daje możliwości w stosunku do powyższego? Na pewno jest rozwiązaniem jakościowo znacznie lepszym, o czym możecie się przekonać na stronie say.expressivo.com gdzie można przetestować tą technologię na dowolnym tekście.

Warto również dodać, że text-to-speech (TTS) daje ogromną elastyczność, ponieważ program ten przeczyta dowolny tekst, naprawdę dowolny! Dla testów wpisz na powyższej stronie słowo “kasztypki”lub “na koncie masz 1200356 złotych” ;)

Jakie są inne korzyści? Najważniejszą korzyścią dla firm wykorzystujących tą technologie w biurach obsługi klienta to odciążenie agentów siedzących w CallCenter, ponieważ gro ich obowiązków przejmuje właśnie zautomatyzowany system obsługi klienta korzystający z TTS. Oprócz salda konta można wykorzystać tą technologię do czytania ostatnich operacji na koncie (daty, odbiorcy) czy też odczytać informację o wszczęciu postępowania egzekucyjnego. Możliwości jest od groma, a ide jedna – zaoszczędzony czas agentów przeznaczyć na inne czynności.

Od strony technicznej wygląda to w następujący sposób. Potrzebujemy platformę IVR (Interactive Voice Response), która jest podłączona do różnych baz danych w banku. Następnie integrujemy z IVRem na przykład syntezator mowy IVONA Telecom i dzięki temu w telefonicznym biurze obsługi klient możemy odczytać przez telefon… tak naprawdę wszystko.

Dodam jeszcze, że taki system jest niesamowicie skalowalny dzięki zastosowaniu protokołu MRCP, ale o tym innym razem.

Już za kilka dni będą Święta, a po nich kolejny rok. Dlatego też wszystkim odwiedzającym mojego bloga życzę udanych Świat spędzonych z najbliższymi, hucznej zabawy w Sylwestra, a w nowym roku samych sukcesów.

Jeśli sama treść wam nie wystarcza to poniżej zapraszam do “czytanych” życzeń wygenerowanych syntezatorem mowy IVONA w serwisie say.expressivo.com – kliknij, aby wysłuchać nietypowych życzeń. Nietypowość tych życzeń polega właśnie na zastosowaniu syntezy mowy, mam nadzieje, że się podoba :)