Содержание
Введение 3
§ 1. Диктофонно-компьютерный ввод текста 4
§ 2. Диктовка на компьютере стала реальностью 6
§ 3. Механизмы распознавания речи 7
§ 4. Компьютерные системы распознавания речи 9
4.1. Так работает система распознавания речи 10
4.2. Microsoft и распознавание речи 11
§ 5. Средства диктовки 12
Заключение 15
Список используемой литературы 17
Приложение. Компьютер учится понимать речь 18
Введение
В данной работе рассматривается тема "Диктофонно-компьютерные технологии создания электронных документов". Специалисты подчеркивают, что даже для повышения производительности машинописного ввода документов применение диктофонной техники имеет очень важное значение и дает большой выигрыш. Диктофонная техника применяется в качестве промежуточного звена регистрации информации при создании машинописных документов. Статистика показывает, что затраты труда на составление документа с промежуточной задиктовкой текста на диктофон и последующей печатью с диктофона в 2-3 раза меньше, чем при рукописной подготовке и последующей печати с черновика. Но развитие техники не стоит на месте и я в своей работе буду рассматривать уже диктофонно-компьютерные технологии создания электронных документов, т.е. когда ввод текста с диктофона в компьютер автоматизирован.
За голосовой ввод текста в компьютер отвечают системы распознавания речи. В 70-х на переднем крае речевых технологий оказались советские ученые, специализировавшиеся на фундаментальных исследованиях теории языка. Их достижения легли в основу многих современных продуктов, однако, как бы велико ни было значение этих исследований, больше всего нынешним изобилием продуктов, основанных на речевых технологиях, мы обязаны рыночным механизмам. Они же обеспечили и снижение цен до их нынешнего уровня. Например, система речевого управления производства фирмы Dragon Systems - одного из лидеров в этой области - стоила в дни 386 процессора $5000, а теперь ее можно купить менее чем за $200.
Продукты, основанные на технологии распознавания речи, можно разделить на три большие группы:
- средства речевого управления;
- средства диктовки;
- средства идентификации по образцу речи.
Нас будут интересовать именно средства диктовки. Безусловно, ввод текста с диктофона имеет свою специфику, по сравнению с просто диктовкой текста человеком, но современные компьютеры и программы уже умеют распознавать непрерывную речь - такую, как записанная на диктофон. Т.е. фактически диктофонно-компьютерные технологии создания электронных документов не сильно отличаются просто от голосового ввода текста. Итак, рассмотрим подробнее эти технологии.
§ 1. Диктофонно-компьютерный ввод текста
Программы для диктовки текстов (одно из применений функции распознавания речи) первоначально могли понимать только так называемую "раздельную" речь, в которой после каждого произнесенного слова требовалось сделать небольшую паузу. Такая манера говорить неестественна - в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограммы). Распознавать диктовку текстов общей тематики, выполняемую в манере слитной речи, коммерческие программы научились только в 1997 году. Разумеется, что словарь подобных пакетов обслуживает так называемую общую тематику и охватывает лишь небольшую часть всей лексики. Значительная часть пользователей этим словарем не ограничивается и подключает еще специализированные (технические, медицинские, юридические и другие) словари.
Впрочем, на качество распознавания влияет даже манера ведения разговора - непринужденную беседу с относительно небольшим количеством используемых лексических единиц запротоколировать гораздо сложнее, чем размеренный диктант. Проблема заключается, в основном, в вариативности и наличии большого количества различных смысловых оттенков у самых простых конструкций. Тяжелее всего распознаются короткие слова, в результате по сравнению с многосложными частота ошибок при их обработке несравненно больше. Серьезнейшая проблема - одно-двухбуквенные слова. Заставить компьютер различать английские "а" и "an" можно, только обращаясь к контексту всей фразы. Расшифровка диктофонных записей, компьютерное стенографирование конференций и обсуждений - задача, к решению которой создатели ПО для распознавания речи приблизились совсем недавно. По заявлениям разработчиков компаний Dragon Systems, IBM и Lernout&Hauspie, компьютер (при непрерывной диктовке) способен правильно распознавать до 95% текста, а меж тем известно, что для комфортной работы точность распознавания требуется довести до 99%. Надо ли говорить, что завоевание таких высот в реальных условиях требует, мягко говоря, неординарных усилий...
Работа в зашумленных помещениях также, разумеется, оказывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый "профиль", поэтому программу требуется "обучить" не только работе с конкретным пользователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой "профиль". Специальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи -Via Voice Gold корпорации IBM Research, Naturally Speaking Preferred фирмы Dragon Systems и Voice Xpress (Lernout&Hauspie Speech Products).
Центральным элементом любого продукта, относящегося к одной из перечисленных групп, служит механизм распознавания речи - существующий самостоятельно или в виде набора алгоритмов, реализованных в пакете ПО. Большинство механизмов распознавания речи состоит из четырех основных блоков: препроцессора, экстрактора, компаратора и интерпретатора.
Распознавание, опирающееся на анализ речи, является важной функцией обработки речи, выполняемой системой. Этот процесс позволяет заменять непроизводительную работу с клавиатурой либо световым пером применением