Голос в вашем GPS-навигаторе, виртуальный помощник в вашем смартфоне или те автоматические ответы, которые вы получаете при наборе номера телефона горячей линии компании, не являются реальными голосами.
Другими словами, нет большой базы данных произнесенных для записи слов, которые компьютер подбирает и связывает их вместе, чтобы создать предложение. Они генерируются им налету, но звучат настолько естественно, настолько человечно, что чаще всего совершенно неотличимы от голосов реальных людей.
Непростая задача
Человеческие голоса намного сложнее по своей акустике по сравнению, скажем, с лаем собаки или грохотом разбитой тарелки. Само разнообразие их ошеломляет. Как и человеческие лица, они очень индивидуальны, нет двух одинаковых голосов. Добавьте к этому различные склонности и эмоции, ударения в слогах, громкость. Воспроизвести нюансы речи совсем непросто. Это настоящее достижение, что мы научились синтезировать человеческий голос с такой точностью.
Изобретатели хотят воспроизвести речь человека с помощью механизмов
Одна из самых ранних попыток создать синтетическую речь была предпринята более двухсот лет назад, в 1779 году, прусским профессором Кристианом Кратценштейном. Изобретатель построил прибор, состоящий из нескольких вибрирующих язычков, которые были по акустике похожи на человеческий голосовой аппарат. Его устройство могло искусственно создавать пять длинных гласных.
Несколько лет спустя, в 1791 году, изобретатель из Вены по имени Вольфганг фон Кемпелен построил более детальную машину, смоделированную на основе различных человеческих органов, которые делают возможной речь.
У машины были пара сильфонов для имитации легких, вибрирующий тростник в форме голосовых связок, кожаная трубка для голосового тракта, две ноздри, кожаные язычки и губы. Управляя формой кожаной трубки и положением языков и губ, фон Кемпелен мог производить как согласные, так и гласные.
Почти полвека спустя Чарльз Уитстоун создал улучшенную версию говорящего аппарата фон Кемпелена, который мог произносить большинство согласных звуков и даже пару полных слов.
Механический голос
Первым устройством, которое считается настоящим синтезатором речи, был VODER (Voice Operating Demonstrator), разработанный Гомером Дадли из Bell Labs в 1930-х годах. Это была довольно сложная машина с четырнадцатью клавишами, похожими на пианино, стержнем, управляемым запястьем, и ножной педалью, которой оператор мог манипулировать и заставлять машину говорить. Голос звучал очень роботизировано, как «инопланетянин, говорящий под водой», как описала это Лиза Гернси из New York Times.
Фактически, «роботизированный голос», который мы часто слышим в старых научно-фантастических фильмах и телевизионных драмах, возможно, произошел от VODER. «Как только истинный голос машины вошел в общественное сознание, его место и форма в вымышленном изображении никогда не будут прежними, — пишет Бен Фино-Радин из Rhizome. — После того дня, в 1939 году, мы точно знали, как должна звучать нечеловеческая механическая речь».
Современники приводят описание, как работал VODER
Оператор выбирает один из двух основных звуков, используя для этого запястья: гудящий звук и шипящий звук. Гудение было строительным блоком для гласных звуков и носовых звуков. Шипящий звук являлся строительным блоком для тех звуков, которые связаны с согласными.
Эти звуки затем передавались через систему фильтров, которые были выбраны пользователем путем выбора соответствующих кнопок на клавиатуре. Эти звуки были объединены и отправлены через громкоговоритель. Для звуков, не воспроизводимых жужжанием или шипением, таких как «п», «д», «й» и «х», можно было выбрать дополнительные фильтры.
Разные слова могли быть объединены в разные предложения на основе манипулирования клавишами и звуками. Вы даже можете добавить различные выражения и высоты тона (управляемые ножной педалью) в зависимости от типа задаваемого вопроса.
Как заставить говорить?
Миссис Хелен Харпер, которая была главным оператором VODER во время его демонстрации на Всемирной выставке в Нью-Йорке в 1939 году, дает нам представление о том, как трудно было овладеть новым механизмом.
Например, — рассказывает миссис Харпер, — при создании слова «концентрация» на VODER я должна последовательно сформировать тринадцать различных звуков, сделать пять движений вверх и вниз запястьем и изменить положение педали от трех до пяти раз в зависимости от того, какое выражение я хочу, чтобы механизм придал слову. И, конечно же, все это должно быть сделано в правильные, точно определенные сроки».
Хелен Харпер потребовался год постоянной практики, прежде чем она научилась управлять машиной с высокой точностью. Триста девушек прошли обучение, чтобы стать операторами, но только менее тридцати получили правильные навыки.
Опытный оператор, такой как миссис Харпер, может заставить VODER говорить на любом языке. А также мычать, как корова, или хрюкать, как свинья. Оператор даже может заставить сложную машину петь.