Revizuire Watson Speech to Text: Cel mai bun serviciu de transcriere cu volum mare?

Cuprins:

Anonim

Watson este sistemul informatic IBM de procesare a limbajului natural. Acesta alimentează celebrul supercomputer care răspunde la întrebări, precum și o serie de produse de întreprindere bazate pe AI, inclusiv Watson Speech to Text. În recenzia noastră Watson Speech to Text, vom analiza una dintre cele mai bune aplicații de tip speech-to-text din jur, ideală pentru oricine dorește să convertească audio în text la scară.

Platforma de procesare a vorbirii Watson este disponibilă pe IBM Cloud. Este un instrument versatil și poate fi utilizat în multe contexte, inclusiv dictarea și transcrierea apelurilor de conferință. Mai mult, spre deosebire de majoritatea celorlalte aplicații vorbire-text, este disponibil ca API, permițând dezvoltatorilor să-l încorporeze, printre altele, în sistemele de control vocal.

Watson Speech to Text: planuri și prețuri

Puteți utiliza Watson Speech to Text pentru a procesa gratuit până la 500 de minute de sunet gratuit pe lună. Dacă doriți să convertiți mai mult de atât, va trebui să plătiți pentru fiecare minut audio, iar rata se modifică în funcție de durata procesării audio. Costurile variază de la 0,01 USD la 0,02 USD pe minut și există o taxă suplimentară de 0,03 USD pe minut dacă aveți nevoie de modelul de limbă personalizat IBM. Sunt disponibile și planuri Watson exclusiv cu ofertă premium, iar acestea oferă acces la funcții îmbunătățite de confidențialitate a datelor și garanții de disponibilitate.

Serviciul vorbire-text Watson are un preț bazat pe volumul de conținut pe care trebuie să îl transcrieți.

De asemenea, puteți accesa sistemul Watson Speech to Text printr-un abonament IBM Cloud de uz general. Procesarea limbajului natural este doar o aplicație dintr-o gamă largă de servicii AI pe care le puteți obține prin IBM Cloud, deci aceasta este o opțiune bună pentru orice organizație care are nevoie de acces la transferuri de date de mare viteză, chatbots sau instrumente text-to-speech.

Watson Speech to Text: Caracteristici

Datorită integrării flexibile API și a altor instrumente IBM pre-construite, serviciul de recunoaștere a vorbirii Watson depășește cu mult transcrierea de bază. Dacă doriți să-l utilizați într-un context de servicii pentru clienți, de exemplu, Asistentul Watson poate fi configurat pentru a procesa întrebări de limbaj natural direct sau pentru a răspunde la întrebări prin telefon.

În Watson, IBM a pus la punct o platformă de procesare a limbajului natural bogată în caracteristici.

Watson funcționează cu sunet live în 11 limbi și poate importa sunete într-o varietate de formate pre-înregistrate. Atunci când transmiteți în flux, asistența de diagnosticare în timp real înseamnă că Watson poate solicita utilizatorilor să se apropie de microfonul lor sau să își schimbe mediul. De asemenea, este impresionant faptul că Watson poate distinge diferiți difuzori într-o conversație partajată datorită Speaker Diarization, o caracteristică care este încă în curs de testare beta.

Watson Speech to Text: Configurare

Pentru a utiliza Watson, primul lucru pe care trebuie să-l faceți este să creați un cont IBM Bluemix. Înregistrarea este gratuită și nedureroasă, necesitând doar o adresă de e-mail și o parolă. Odată conectat, trebuie să adăugați o prevedere în contul dvs. pentru serviciul Speech to Text. Veți primi câteva acreditări în această etapă pe care ar trebui să le salvați în propriile înregistrări.

Înregistrarea pentru un cont IBM Bluemix este necesară pentru a avea acces la setul complet de funcții Watson.

După ce ați făcut acest lucru, lucrurile devin mult mai complexe. Pentru a accesa Watson, va trebui să adăugați acele acreditări la un lot de coduri de localizare a resurselor uniforme ale clientului (CURL) și apoi să îl rulați pe computerul dvs. Pentru a afla exact ce comandă să apelați, consultați acest ghid la îndemână. Alternativ, dacă doriți doar să vedeți cât de bine funcționează sistemul Watson fără a fi nevoie să treceți prin toate aceste cercuri, îl puteți încerca pe site-ul demonstrativ IBM.

Watson Speech to Text: Interfață

Spre deosebire de aplicațiile voce-text orientate către consumatori, serviciile Watson sunt concepute pentru a fi accesate prin API-uri și cod încorporat în alte sisteme. Din acest motiv, nu există o „interfață” reală Watson. În schimb, Watson poate fi accesat prin intermediul a trei protocoale internet diferite. Acestea sunt WebSockets, REST API și Watson Developer Cloud.

Watson Speech to Text poate fi gestionat prin sistemul Cloud Watson Developer.

Pentru a controla Watson, va trebui să utilizați un instrument de linie de comandă care se conectează la cloud-ul IBM printr-una dintre aceste trei rute. Interfața pe care o vede utilizatorul final care interacționează cu Watson va trebui să fie construită de către cineva din echipa ta de dezvoltare separat.

Watson Speech to Text: Performanță

În general, am fost impresionați de modul în care această platformă de procesare a limbajului natural a gestionat vorbirea reală. Am folosit Watson pentru a transcrie clipuri pe care le-am înregistrat într-o serie de medii provocatoare, precum și sunete de discursuri celebre susținute în mai multe dintre cele 11 limbi acceptate de Watson.

Am constatat că Watson a performat bine cu vorbirea preînregistrată.

Deși erorile au devenit mai frecvente pentru clipurile cu mult zgomot de fundal, în general, Watson a produs rezultate incredibil de precise. Din testele noastre, estimăm că greșelile neprevăzute au apărut doar o dată la 150 de cuvinte în medie. Cu toate acestea, a devenit clar de ce caracteristica Watson Speaker Diarization rămâne în testarea BETA deoarece, de mai multe ori în timpul evaluării noastre, o voce a fost etichetată greșit ca difuzoare separate.

Watson Speech to Text: Asistență

Centrul de resurse IBM oferă o mulțime de documentație pentru a înțelege mai bine cum să aplicați Watson la cazul dvs. de utilizare. Merită, de asemenea, să folosiți integrările API și SDK-urile create de comunitatea de dezvoltatori Watson și postate pe GitHub.

Pagina Watson API GitHub este o bună sursă de asistență pentru serviciul Watson Speech to Text.

Dacă nu găsiți soluția la problema dvs., puteți contacta IBM direct deschizând un bilet de asistență sau contactându-i prin telefon. Atâta timp cât ați optat pentru unul dintre pachetele premium Watson, utilizarea dvs. Watson va fi protejată printr-un acord de nivel de serviciu.

Watson Speech to Text: verdict final

Dacă organizația dvs. are cunoștințele și resursele necesare pentru a integra în mod corespunzător platforma IBM Watson Speech to Text în sistemul dvs., veți beneficia de funcții avansate, cum ar fi diagnosticarea mediului sonor în timp real și rezultatele intermediare ale transcrierii. Cu toate acestea, întreprinderile și organizațiile mici se vor lupta cu provocarea tehnică de a înființa Watson în mod corespunzător.

Competitia

Serviciul IBM Watson Speech to Text este un concurent direct la serviciile de transcriere în bloc Google Cloud Speech-to-Text și Amazon Transcribe. Ambele sunt semnificativ mai ieftine decât Watson, cu transcrierea Google Cloud, de exemplu, începând de la 0,006 USD pe minut. Toate cele trei servicii împărtășesc funcții similare, cum ar fi vocabularul personalizat, dar o caracteristică care lipsește grav din IBM Watson, dar disponibilă pentru ambii concurenți, este recunoașterea automată a punctuației.

Căutați o altă soluție spoeech-to-text? Consultați cel mai bun ghid software pentru vorbire-text.