Голосовой поиск

Голосовой поиск — технология распознавания речи, позволяющая осуществлять перевод речевого запроса пользователя в текстовый вид, который затем передается в стандартную систему поиска по базе данных.

Приложения наиболее явно связанные с термином «голосовой поиск» основываются на использовании систем распознавания речи и часто синтеза речи для автоматизированного возвращения результатов поиска. Голосовой поиск реализуется в следующих направлениях:

  • алфавитный справочник, поиск компании по имени или категории, поиск человека по списку;
  • поиск информации, такой как новости, финансы, пробки, направление движения, погода или информация по кинотеатрам (при этом часто используется управление многоуровневым голосовым меню);
  • поиск в Интернете, аналогичный тому, как если бы запрос был напечатан в поисковой строке, но осуществляемый голосом (иногда приводящий к текстовой выдаче результатов на мобильном телефоне);
  • выбор опций из длинного списка служб мобильного сервиса, на портативном устройстве или в автомобильной системе (песни или радиостанции).

Все эти формы поиска инициализируются голосовым запросом, результатом чего является либо выбор нужного действия, либо доставка информации в виде синтезированной речи. Отличительной характеристикой этих основных приложений является быстрый доступ к информации, сводящей до минимума её усилия по её поиску.

Причиной для использование голоса часто служит то, что используемое устройство является мобильным телефоном, где текстовый ввод неудобен или опасно отвлекает внимание, и где трудно просматривать длинные списки из-за маленького экрана.

Другая категория приложений, которые можно считать частью голосового поиска — «голосовой набор номера» — поиск контакта в каталоге. Сервис состоит в том, что после голосового обращения к системе и определения искомого имени она совершает звонок по выбранному контакту.

Иногда под понятием «звуковой поиск» понимается поиск по аудио (или аудиодорожке видеофрагмента) для нахождения фрагментов речи и преобразования их в доступное для поиска содержание. Приложения включают в себя обнаружение в видео или в подкасте определенной темы или упоминания компании; радиокомпании могут преобразовывать заархивированное звуковое/видео содержание в более удобную для использования форму, а дикторы могут более легко находить информацию. Эта технология базируется на речевых технологиях, позволяющих анализировать голосовое содержание файлов.

При использовании данных технологий в call-центрах они носят название «речевой аналитики», которая дополняет распознанную речевую информацию, чтобы сделать некоторый статистический и языковой анализ, используя готовый текстовый и фонетический материал. Такие приложения позволяют искать определенные звуковые фрагменты по необходимым атрибутам (например, определять недовольные отзывы позвонивших клиентов).

Преобразование голосовых файлов в текст для дальнейшего текстового поиска по ним существует, например, в таких сервисах, которые позволяют преобразовывать голосовую почту в текст для более легкого поиска и просмотра, а также позволяют дальнейшую пересылку голосовой почты в виде электронной почты или sms. Так же доступны сервисы, предоставляющие возможность оставлять голосовые заметки по телефону и преобразовывать их в текст. Одна из главных целей такого обслуживания состоит в том, чтобы сделать голосовое содержимое легко архивируемым и удобным для поиска.