Microsoft отчиталась о значительном улучшении точности распознавания речи

Артем Костенко, опубликовано 15 сентября 2016 г.
Рубрика: ОС и софт

Для определения качества распознавания человеческой речи используется специальная метрическая шкала. Она называется Word Error Rate. Именно на нее ориентируются компании-разработчики алгоритмов и систем распознавания речи. До настоящего времени лучшим показателем считался алгоритм Google, показывавший всего 8% ошибок. А между тем еще три года назад хорошим результатом считалось 23%.

Microsoft scores 6.3% in Word Error Rate

На днях у рейтинга появился новый лидер. Высокие результаты показал алгоритм Microsoft, добившийся того, что доля нераспознанных или неправильно распознанных слов опустилась до 6,3%. Все эти алгоритмы используются системами распознавания речи, доступ к которым открыт пользователю каждый день. Это, прежде всего, голосовые помощники вроде Siri, Cortana, Now и тому подобные. Сделать так, чтобы компьютерная программа понимала человека на 100% пока не удалось никому, но очевидно не за горами тот день, когда это уже случится.

Microsoft рассказала, что добиться высоких показателей в Word Error Rate ей помогли новые алгоритмы с использованием нейросетей глубокого обучения и ресурсы графических карт, используемые в параллельных вычислениях.

Судя по всему ждать, пока показатель распознаваемости речи опустится до 1-2% осталось совсем недолго. Еще лет пять и компьютер станет адекватным собеседником, который сможет не только понимать все, что ему говорят, но и отвечать естественным человеческим голосом. Такие алгоритмы уже, кстати, разработаны Google (WaveNet от проекта Google DeepMind).