Огляд Google Voice Typing

Все більш звичним є використання голосу для управління нашими будинками та комп’ютерами. Де лише десять років тому прохання Alexa або Google Home керувати освітленням або замовляти продукт з Інтернету могло здатися незвичним, але зараз це норма.

Однією з компаній, яка інвестувала найбільше в цей тип технологій, є Google, що дозволяє своїм пристроям Google Home та системам Android приймати словесні команди та навіть розпізнавати динаміка.

Сьогодні ми розглянемо, як вони пов’язали цю технологію зі своєю платформою Google Docs, і розглянемо, чи є це життєздатною альтернативою іншим комерційним рішенням для перетворення голосу в текст.

Ціноутворення

Програмне забезпечення включене в Документи Google, і тому є по суті безкоштовним. Для його використання вам потрібен лише обліковий запис Google і мобільний пристрій, або комп’ютер з мікрофоном. Це ще одне джерело даних для збору врожаю, але це частина ціни "безкоштовно" в наші дні.

Дизайн

Можна використовувати голос для введення в Документах Google, ця функція називається „Голосовий ввід”, і її можна знайти в меню Інструменти в Документі Google або в Google Slides. Його також можна активувати в будь-якому місці за допомогою комбінації клавіш Ctrl-Shift-S.

Коли ви активували його вперше, вас попросять санкціонувати доступ до мікрофона для docs.google.com.

Після того, як ви прийняли, що з’являється невеличка рамка з логотипом мікрофона, яку ви можете натиснути, щоб активувати голосовий ввід. Потім він замінюється червоним символом мікрофона поруч із документом, щоб вказати, що система перебуває в режимі прослуховування.

Перш ніж активувати голосовий набір тексту на панелі керування, ви можете вибрати мову з меню, і оскільки це Google, вибір є безліч. Ви також можете натиснути на знак запитання та отримати деяку допомогу щодо використання системи.

У міру розвитку цих систем це дуже конденсоване рішення.

Google буде обробляти те, що ви говорите, наскільки це можливо, і якщо система не впевнена точно щодо слова, вона підкреслить це сірим кольором. Потім можна натиснути ці «підозрілі» слова та навести деякі альтернативні варіанти системи.

Але ви можете швидко переміщатись по документу та виправляти проблеми вручну або розміщувати курсор і надавати голосовому набору ще один удар.

Якщо вам потрібно поговорити з іншою людиною під час роботи, ви можете попросити Google припинити слухати, а потім продовжити.

Але щоб отримати всі можливості цього рішення, існує довгий перелік команд, які потрібно запам’ятати, які можна копіювати, вставляти, переміщати по документу, вставляти таблиці та безліч інших функцій.

І ви можете вставити розділові знаки, відформатувати документ і навіть вставити гіперпосилання.

Але, отримуючи максимум від цього, передбачається, що ви можете запам'ятати команди або відкрити довідку для прокручування пам'яті.

Список швидко доступний, зручно вимовляючи „Список голосових команд”.

Мови

Якщо багато рішень для перетворення голосу в текст охоплюють лише невелику кількість мов, Google пропонує значну кількість. Поточний остаточний список:

Африкаанс, амхарська, арабська, арабська (Алжир), арабська (Бахрейн), арабська (Єгипет), арабська (Ізраїль), арабська (Йорданія), арабська (Кувейт), арабська (Ліван), арабська (Марокко), арабська (Оман) , Арабська (Палестина), арабська (Катар), арабська (Саудівська Аравія), арабська (Туніс), арабська (Об’єднані Арабські Емірати), вірменська, азербайджанська, бахаса Індонезія, баскська, бенгальська (Бангладеш), бенгальська (Індія), болгарська, Каталонська, китайська (спрощена), китайська (традиційна), китайська (Гонконг), хорватська, чеська, датська, голландська, англійська (Австралія), англійська (Канада), англійська (Гана), англійська (Індія), англійська (Ірландія) , Англійська (Кенія), англійська (Нова Зеландія), англійська (Нігерія), англійська (Філіппіни), англійська (Південна Африка), англійська (Танзанія), англійська (Великобританія), англійська (США), фарсі, філіппінська, фінська, французька , Галисійська, грузинська, німецька, грецька, гуджараті, іврит, хінді, угорська, ісландська, італійська, італійська (Італія), італійська (Швейцарія), японська, яванська, каннада, кхмерська, корейська, лаоська, латвійська, литовська, малаяламська, Малайзія російська, маратхі, непальська, норвезька, польська, португальська (Бразилія), португальська (португальська), румунська, російська, словацька, словенська, сербська, сингальська, іспанська, іспанська (Аргентина), іспанська (Болівія), іспанська (Чилі), іспанська (Колумбія), іспанська (Коста-Ріка), іспанська (Еквадор), іспанська (Сальвадор), іспанська (Іспанія), іспанська (США), іспанська (Гватемала), іспанська (Гондурас), іспанська (Латинська Америка), іспанська (Мексика) ), Іспанська (Нікарагуа), іспанська (Панама), іспанська (Парагвай), іспанська (Перу), іспанська (Пуерто-Рико), іспанська (Уругвай), іспанська (Венесуела), сунданська, суахілі (Кенія), суахілі (Танзанія), Шведська, тамільська (Індія), тамільська (Малайзія), тамільська (Сінгапур), тамільська (Шрі-Ланка), тайська, турецька, українська, урду (Індія), урду (Пакистан), в’єтнамська та зулуська.

Це 119 мов, включаючи 13 арабських форм, 19 іспанських варіантів, 13 англійських діалектів і навіть чотири смаки тамільської.

Є такі мови, які рідко підтримуються програмним забезпеченням для диктування, такі як зулуська та ісландська, через відносно невелику кількість мовців.

Мовне покриття - це, мабуть, найбільша сила Google Voice Typing.

Записи

Якщо це рішення має слабкі сторони, це те, що воно не може легко обробити записи.

Зробити це неможливо, але для цього потрібно виправити аудіосистему комп’ютера, щоб вона приймала вихідний сигнал, призначений для динаміків, і спрямовувала його так, ніби вона надходила від мікрофона. Але це не дає змоги розрізняти різних людей на записах, і це може заважати штучному інтелекту, який Google використовує для покращення вербальної точності, дізнавшись, як ви говорите.

Якщо ви хочете розшифрувати подкасти або записані інтерв’ю, ми рекомендуємо вам використовувати щось інше, оскільки цей інструмент не створений для цієї мети.

Точність

Важко судити про точність системи голосової обробки, коли ви не можете надіслати їй ті самі записи, які конвертували інші продукти. Кожен, хто регулярно використовує Alexa або Google Home, буде знати, що іноді він нас не розуміє, здебільшого через сторонні звуки або непослідовне мовлення.

Тим не менш, під час активного тестування, яке ми проводили, цей інструмент, як правило, отримував правильну більшість слів, або правильне слово було швидко доступне в меню підозрюваних слів.

Для досягнення найкращих результатів потрібен певний контроль над швидкістю, гучністю та тоном мовлення, що, безсумнівно, приходить із практикою. Крім того, можливість запам’ятати всі спеціальні команди може критично зменшити кількість необхідних редагувань після запису.

Залежно від ваших очікувань, точність тут є прийнятною. Його інтерпретації відповідають послідовності, яку він дотримувався під час наших тестів. Ми не можемо передбачити, наскільки це добре працює для вас. Але оскільки це безкоштовно, це не буде коштувати нічого, крім вашого часу, щоб визначити це.

Безпека

Оскільки це Google, модель безпеки - та сама, що контролює доступ до всіх облікових записів Google. Це варіюється від простого захисту паролем до більш розумної до двофакторної методології автентифікації (TFA).

Враховуючи кількість крадіжок особистих даних, ті, хто користується Google без TFA, ризикують зламати свої облікові записи.

Навіть у цього варіанту безпеки є свої обмеження, але це краще, ніж просто пароль.

Тим, хто недостатньо параноїчний, настійно рекомендуємо перейти на сторінку https://myactivity.google.com/myactivity

І ви побачите, що Google збирає на вас щодня, і це може включати записи ваших голосових команд.

Остаточний вердикт

Це може бути довший огляд, якщо це програмне забезпечення пропонує більше функціональних можливостей, але це не так.

Оскільки рішення для перетворення голосу в текст це рішення не є складним, але воно має достатньо функціональних можливостей, щоб бути справді корисним.

Інші рішення створені для транскрипції розмов між кількома людьми, де це було розроблено для обробки однієї людини, яка говорить контрольовано і точно.

При його використанні передбачається, що ви із задоволенням користуєтесь Google і Google Docs, навіть якщо це не кінцевий пункт призначення тексту, який ви вводите.

Копіювати диктант вставлення з Документів Google в іншу програму не потрібно, і ви отримаєте хмарну копію для посилання, якщо вам знадобиться.

Зрозуміло, у деяких користувачів виникають проблеми із підсиленням ненаситного апетиту Google до даних користувачів, і цей механізм - ще одне джерело даних для перекушування.

Якщо ви почуваєтесь так, тоді ви не будете використовувати Google Voice Typing чи щось інше від Google.

Для тих, хто бажає прийняти, скільки Google може знати про них, тоді рішення для голосового диктування в Документах Google достатньо для загального користування, особливо якщо ця функція потрібна лише зрідка.

Цікаві статті...