Огляд мови до тексту Уотсона: Найкраща сервісна транскрипція?

Ватсон - це комп’ютерна система для обробки природних мов IBM. Він оснащений відомим суперкомп’ютером, що відповідає на запитання, а також серією корпоративних продуктів на базі штучного інтелекту, зокрема Watson Speech to Text. У нашому огляді Watson Speech to Text ми розглянемо один із найкращих додатків для перетворення мови в текст, який ідеально підходить для тих, хто хоче конвертувати аудіо в текст у масштабі.

Платформа обробки мови Watson доступна на IBM Cloud. Це універсальний інструмент, який можна використовувати в багатьох контекстах, включаючи диктування та транскрипцію конференц-дзвінків. Більше того, на відміну від більшості інших програм перетворення тексту в текст, він доступний як API, що дозволяє розробникам, серед іншого, вбудовувати його в системи голосового управління.

Мова Ватсона в текст: плани та ціни

Ви можете використовувати Watson Speech to Text для обробки до 500 хвилин звуку безкоштовно на місяць. Якщо ви хочете конвертувати більше, ніж це, вам доведеться платити за кожну аудіохвилину, і тариф змінюється залежно від тривалості обробленого аудіо. Вартість становить від 0,01 до 0,02 дол. США за хвилину, а додаткова плата становить 0,03 дол. США за хвилину, якщо вам потрібна спеціальна мовна модель IBM. Також доступні преміальні тарифні плани Watson, які надають доступ до розширених функцій конфіденційності даних та гарантій безвідмовної роботи.

Вартість послуги перетворення тексту в тексті Ватсона визначається залежно від обсягу вмісту, який вам потрібно переписати.

Ви також можете отримати доступ до системи Watson Speech to Text через загальну передплату на IBM Cloud. Обробка природної мови - це лише одна програма з широкого спектру послуг ШІ, яку ви можете отримати через IBM Cloud, тому це хороший варіант для будь-якої організації, яка потребує доступу до швидкісних передач даних, чат-ботів або інструментів перетворення тексту в мову.

Мова Уотсона в текст: Особливості

Завдяки гнучкій інтеграції API та іншим попередньо створеним інструментам IBM, служба розпізнавання мови Watson виходить далеко за рамки базової транскрипції. Якщо ви хочете використовувати його в контексті обслуговування клієнтів, наприклад, Watson Assistant можна налаштувати для безпосередньої обробки запитань на природній мові або відповіді на запити по телефону.

У Ватсоні IBM створила багатофункціональну платформу обробки природних мов.

Уотсон працює з живим звуком на 11 мовах і може імпортувати звуки у різних попередньо записаних форматах. Під час потокової передачі діагностична підтримка в режимі реального часу означає, що Watson може запропонувати користувачам наблизитися до мікрофона або змінити середовище. Також вражає той факт, що Уотсон може розрізняти різних спікерів у спільній розмові завдяки Spear Diarization - функції, яка все ще проходить бета-тестування.

Мова Уотсона в текст: Налаштування

Щоб використовувати Watson, перше, що вам потрібно зробити, це створити обліковий запис IBM Bluemix. Реєстрація є безкоштовною та безболісною, вимагаючи лише адресу електронної пошти та пароль. Після входу вам потрібно додати у своєму обліковому записі послугу "Мовлення в текст". На цьому етапі ви отримаєте пару облікових даних, які слід зберегти у власних записах.

Реєстрація облікового запису IBM Bluemix необхідна для того, щоб отримати доступ до повного набору функцій Watson.

Після цього все стає значно складнішим. Щоб отримати доступ до Watson, вам потрібно буде додати ці облікові дані до партії коду універсального локатора ресурсів клієнта (cURL), а потім запустити його на своїй машині. Щоб точно дізнатись, яку команду викликати, перегляньте цей зручний посібник. Крім того, якщо ви просто хочете побачити, наскільки добре працює система Watson без необхідності перебирати всі ці обручі, ви можете спробувати її на демонстраційному сайті IBM.

Мова Уотсона в текст: Інтерфейс

На відміну від програм для перетворення голосу в текст, орієнтованих на споживачів, послуги Уотсона розроблені для доступу через API та код, вбудований в інші системи. З цієї причини справжнього "інтерфейсу" Ватсона немає. Натомість до Уотсона можна отримати доступ через три різні Інтернет-протоколи. Це WebSockets, REST API та Watson Developer Cloud.

Управління мовою в текст Watson можна здійснювати через хмарну систему Watson Developer.

Для управління Ватсоном вам потрібно буде скористатися інструментом командного рядка, який підключається до хмари IBM одним із цих трьох маршрутів. Інтерфейс, який бачить кінцевий користувач, який взаємодіє з Watson, повинен бути побудований кимось із вашої команди розробників окремо.

Мова Уотсона в текст: Перформанс

Загалом, ми були вражені тим, як ця платформа для обробки природних мов обробляла справжню мову. Ми використовували Ватсон для транскрипції кліпів, які ми записали в цілому ряді складних середовищ, а також звукових записів відомих виступів, прочитаних кількома з 11 підтримуваних мов Ватсона.

Ми виявили, що Уотсон добре працював із попередньо записаною промовою.

Хоча помилки зростали частіше для кліпів з великою кількістю фонових шумів, загалом Ватсон давав неймовірно точні результати. За нашими тестами ми оцінили, що невідповідні помилки в середньому траплялися лише раз на 150 слів. Однак стало зрозуміло, чому функція "Діаризація спікера" Ватсона залишається в тесті БЕТА, оскільки кілька разів під час нашого оцінювання один голос був неправильно позначений як окремі динаміки.

Мова Уотсона в текст: Підтримка

Центр ресурсів IBM пропонує безліч документації, щоб краще зрозуміти, як застосувати Watson до конкретного випадку використання. Також варто скористатися інтеграцією API та SDK, створеними спільнотою розробників Watson та розміщеними на GitHub.

Сторінка Watson API GitHub є хорошим джерелом підтримки служби Watson Speech to Text.

Якщо ви не знайшли там рішення своєї проблеми, ви можете зв’язатися з IBM безпосередньо, відкривши квиток підтримки або зв’язавшись з ними по телефону. Поки ви вибрали один із преміальних пакетів Watson, ваше використання Watson буде захищене угодою про тривалість обслуговування.

Промова Ватсона до тексту: Остаточний вердикт

Якщо ваша організація має ноу-хау та ресурси для належної інтеграції платформи IBM Watson Speech to Text у вашу систему, ви отримаєте вигоди від розширених функцій, таких як діагностика звукового середовища в режимі реального часу та проміжні результати транскрипції. Однак малий бізнес та організації будуть боротися з технічною проблемою, щоб правильно налаштувати Ватсона.

Змагання

Послуга IBM Watson Speech to Text є прямим конкурентом сервісів масової транскрипції Google Cloud Speech-to-Text та Amazon Transcribe. Обидва вони значно дешевші, ніж Watson, наприклад, транскрипція Google Cloud, починаючи з 0,006 долара за хвилину. Всі три служби мають подібні функції, такі як налаштований словниковий запас, але одна функція, яка дуже відсутня в IBM Watson, але доступна для обох конкурентів, - це автоматичне розпізнавання пунктуації.

Шукаєте інше рішення для переказу тексту? Ознайомтеся з нашим найкращим посібником із програмного забезпечення для мовлення в текст.

Цікаві статті...