Как выяснило «Реальное время», республиканская Академия наук создаст нейросеть для голосового машинного перевода. На реализацию проекта будет потрачено 6,8 миллиона рублей. Согласно проектной документации, разработчики переводчика должны провести сбор, запись, сделать разметку аудиоданных и подготовить речевые датасеты татарского языка. Помимо этого, создатели должны заняться обучением акустических и языковых моделей распознавания и синтеза татарской речи, на основе собранных датасетов.
Созданный веб-сервис должен уметь распознавать и синтезировать татарскую речь. Переводчик должен быть доступен как сайт, так и в виде мобильного приложения, в нем же нужно прописать возможность для речевого перевода с русского языка на татарский и обратно. Саму платформу проработают для устройств даже с минимальными требованиями. Приложение сделают бесплатным и доступным на всех операционных системах.
Аудиоданные на татарском языке сформируют из сбалансированных стилей речи: разговорного — не менее 10%, публицистического — не менее 60% и официально-делового, художественного и научного — не менее 30%. Также в записи аудиоданных для синтеза татарской речи участие примут профессиональные дикторы, голоса озвучат мужчины и женщины, работающие на телевидении, радио или в театре. В переводчик загрузят не менее 2 000 уникальных голосов различных возрастов, полов и диалектов татарского языка.
Портал аудиолитературы на татарском языке
Как объяснили «Реальному времени» в Академии наук Татарстана, функционал голосового перевода будет работать в веб-сервисе русско-татарского машинного переводчика Таtsoft в общедоступном режиме. Полученные результаты являются базой для следующих актуальных IT-сервисов для татарского языка:
- автоматизация субтитрирования ТВ-передач и видеороликов;
- автоматизированный перевод выступлений;
- веб-сайт и телеграм-бот с речевыми сервисами для населения и журналистов;
- современный портал аудиолитературы на татарском языке;
- татарская версия ChatGPT.
— Кроме того, русско-татарский машинный переводчик будет использоваться в системе «Смарткат» государственными учреждениями республики для подготовки нормативно-правовых актов на государственных языках Татарстана, — рассказали в Академии наук.
Как в Татарстане запускали помощника «Лилию»
Напомним, что последним голосовым помощником в Татарстане был телефонный робот «Лилия». Он помогал жителям республики в период самоизоляции во время пандемии коронавируса. В сутки «Лилия» могла обработать до 2 тысяч звонков.
Источник: realnoevremya.ru