В рамках подготовки к IX Всемирному форуму татарской молодежи в рамках проекта «Акыл фабрикасы» было организовано шесть круглых столов по таким направлениям, как медиа, новая культура, история, образование и воспитание, цифровизация и бизнес. Целью встреч было обсуждение актуальных тем, формирование новых идей и поиск путей развития этих направлений в Татарстане, регионах России и за рубежом.
13 февраля в здании Всемирного конгресса татар прошел круглый стол, посвященный вопросам цифровизации татарского языка, культуры и научных исследований.
В мероприятии приняли участие ученые, IT-специалисты и деятели культуры. Они обсудили адаптацию татарского языка к цифровой среде, его сохранение и развитие для будущих поколений, обозначили ключевые проблемы и предложили пути их решения.
Директор Института прикладной семиотики АН РТ Ринат Абрекович Гильмуллин в своем выступлении подчеркнул, что цифровизация – это неотъемлемый шаг в развитии татарского языка. Он отметил, что если язык не будет активно использоваться в цифровой среде, его будущее окажется под угрозой.
– Мы занимаемся этим направлением с 90-х годов. Если на начальном этапе речь шла только о компьютеризации, то сейчас идет полная цифровизация. Например, мы реализуем важные проекты, такие как программа перевода «Татсофт», системы распознавания и озвучивания речи. Кроме того, создали онлайн-энциклопедию «Татарика», включающую более 26 тысяч слов. Однако важно сделать эти ресурсы максимально удобными для пользователей. Цифровизация – это ключевой инструмент сохранения татарского языка в будущем, – подчеркнул он.
Ринат Абрекович также высказался о развитии искусственного интеллекта:
– Без создания новых моделей прогресса не будет. Для разработки искусственного интеллекта, ориентированного на татарский язык, требуются масштабные языковые корпуса, системы лингвистического анализа и мощные серверы. Однако в настоящее время этих ресурсов недостаточно. Нам необходимо полностью адаптировать искусственный интеллект к татарскому языку, – сказал он.
Руководитель отдела Института языка, литературы и искусства имени Г.Ибрагимова Академии наук РТ Ринат Тагирович Сафаров рассказал о работе, проводимой в рамках программы по сохранению государственных языков. Он подчеркнул важность государственных программ и академических исследований для устойчивого развития татарского языка в цифровой среде.
– С 2014 года в рамках программы по сохранению государственных языков в нашем институте реализуются электронные проекты, направленные на развитие татарского языка. Некоторые из них используются в узкоспециализированных научных исследованиях, а другие предназначены для широкой аудитории, например, словари. Если раньше радио и телевидение играли ключевую роль, то сегодня изучение и использование языка невозможно без искусственного интеллекта и цифровых платформ. В связи с этим наш институт сосредоточил свою деятельность в четырех направлениях:
- Язык – проекты по изучению и развитию татарского языка.
- Литература – сохранение и популяризация татарской художественной литературы.
- Искусство – цифровизация материалов, связанных с национальным искусством.
- Национальное образование – расширение возможностей обучения на татарском языке, – рассказал Ринат Тагирович.
С 2014 года институт ведет работу по созданию электронной библиотеки. Все книги размещаются на сайте в цифровом формате, но их продажа невозможна, так как организация не является коммерческой. В электронной библиотеке также представлены научные труды, однако многотомные словари, включая татарско-русские и орфографические, не могут быть опубликованы в открытом доступе из-за того, что они издаются коммерческими издательствами.
Ежегодно в рамках программы выпускается 4–5 словарей. На сегодняшний день подготовлено 56 словарей, распределенных по пяти тематическим категориям. В общей сложности собрано 76 словарей. Однако система имеет ряд недостатков:
- Отсутствие единого логотипа затрудняет идентификацию платформы.
- Один и тот же термин в разных словарях может иметь различные варианты, что приводит к смысловым противоречиям.
- Система нуждается в усовершенствовании, но ресурсы ограничены.
- Требуется разработка мобильной версии фонда, но нехватка специалистов и технических возможностей препятствует этому. На компьютере платформа удобна, а на телефоне – текст слишком мелкий, – отметил Ринат Тагирович Сафаров.
По его словам, в настоящее время реализуются два крупных проекта:
- Электронный архив татарской художественной литературы, содержащий 15 миллионов слов.
- Русско-татарский параллельный корпус, включающий 400 тысяч слов.
– Работа по созданию русско-татарских параллельных ресурсов временно приостановлена из-за нормативных ограничений. Однако, если это направление будет развиваться, качество переводов улучшится, словари станут более точными, а их использование – удобнее, считает Ринат Тагирович.
В целом цифровое развитие татарского языка обладает большим потенциалом, но его совершенствование требует дополнительных финансовых и кадровых ресурсов. В этом направлении необходимо продолжать активную работу.
На круглом столе также обсуждалась необходимость сбора татарских топонимов.
– Исторические названия деревень, полей, гор и рек постепенно исчезают. Мы знаем многие из них, собираем информацию, но есть названия, известные только местным жителям. Сбор этих данных станет ценным наследием для будущих поколений. Мы хотим изучить не только татарские топонимы в Татарстане, но и в других регионах, где проживают татары, – заявил Ринат Тагирович.
ML-разработчик и представитель сообщества «Ясалма» (Нейротатары) Дмитрий Гайнуллин, проживающий во Франции, принял участие в заседании в онлайн формате. Он занимается созданием и обучением языковых моделей, а также сбором крупных корпусов текстов. По его словам, развитие нейронных сетей требует большого объема качественного текстового материала. Однако этот процесс осложняется вопросами авторских прав и нехваткой ресурсов, особенно при включении литературных произведений в языковые корпусы.
– Для решения проблемы нехватки данных необходимо сотрудничество с различными организациями. При правильном обосновании такие платформы, как Google Cloud, могут оказать техническую поддержку, – отметил Дмитрий.
Руководитель некоммерческой организации «Татнефть-Наследие» Мария Минеева рассказала о работе по цифровизации культурного наследия:
– Мы сотрудничаем с библиотекой Казанского федерального университета и занимаемся цифровизацией книг уже более 20 лет. Сейчас исследуем частные коллекции и работаем над их размещением на сайте. Однако полная оцифровка материалов, написанных на старотатарском, пока невозможна. В этом направлении требуется государственная поддержка. Цифровизация – важнейший инструмент сохранения татарской культуры, – подчеркнула Мария.
Институт языка, литературы и искусства имени Г.Ибрагимова Академии наук РТ также ведет активную работу в этом направлении.
– 70-80% текстов уже переведены в цифровой формат, но найти их в открытом доступе сложно. Если этот процесс будет совершенствоваться, он окажется полезным не только для татарского языка, но и для проектов, реализуемых на казахском и киргизском языках, – отметил Ринат Тагирович.
Председатель Всемирного форума татарской молодежи Райнур Хасанов рассказал о тестировании искусственного интеллекта в рамках проекта «Акыл фабрикасы». Система первоначально не смогла распознать текст, написанный на старотатарском, но после объяснения орфографических правил смогла создать краткую аннотацию. Однако технология пока далека от совершенства.
Далее слово было передано ученому и режиссеру Ильшату Саетову, который поделился опытом работы с османскими текстами.
В ходе обсуждения API он обратил внимание на проблему перегруженности серверов: «Если будет создана система логинов и паролей для доступа к API, это могло бы решить проблему», – заявил он.
Дмитрий Гайнуллин подчеркнул необходимость расширения открытых языковых корпусов для развития татарского языка. Он также отметил, что обновление существующих датасетов идет медленно: «Назарбаев университет обещал опубликовать новые материалы, но до сих пор этого не сделал».
Директор Института прикладной семиотики АН РТ Ринат Абрекович пообещал уточнить ситуацию с Назарбаев университетом в рамках сотрудничества.
Инженер Изида Хаялиева рассказала о разработке системы антиплагиата для татарского языка:
– Мы собираем и обрабатываем тексты, но сталкиваемся с серьезной проблемой – отсутствием системы распознавания татаркого текста с изображений. Если бы такие модели существовали, наша работа значительно упростилась бы, – пояснила она.
Переводчик Telegram и представитель сообщества «Ясалма» Ильгиз Зигангиров поднял вопрос адаптации терминов на татарский язык:
– Мы сталкиваемся с проблемой отсутствия татарских аналогов многих терминов. Их необходимо разрабатывать и внедрять в повседневное употребление, – отметил он.
Ринат Тагирович Сафаров добавил:
– Мы планируем добавить в словари около 100 новых неологизмов, а также официально закрепить ранее не зафиксированные слова. Однако основная сложность – это создание татарско-русских аналогов. Например, для перевода биологических терминов приходится изучать школьные учебники по биологии. А как быть с технологическими и историческими терминами? Нам необходим отдельный проект для их систематизации.
Руководитель студии «Теория» Ильдар Аюпов также внес предложение:
– Если нужного слова нет, его можно придумать. Например, мы пытались внедрить татарский аналог слова «монитор», но он не прижился. Создание новых терминов – одно дело, а их популяризация – совершенно другая сложная задача.
– Нам нужно ввести традицию выбора «Слова года» – ежегодно определять новые слова, вошедшие в татарский язык, и искать способы их популяризации, – предложили участники.
Далее слово передали Расиму Хусаенову, который занимается переводом Telegram на татарский язык. Он также рассказал о проекте « Безнең тәҗрибә»:
– Этот проект был запущен в 2015 году Газизом Фаттахом. Сейчас он больше занят развитием своего YouTube-канала, но сам проект продолжается. Мы занимаемся переводом зарубежных видео на татарский язык, и любой желающий может попробовать себя в этом деле. Однако работать остаются немногие. В этом году мы начали сотрудничество с профессиональными актерами. Например, перевели две серии аниме «Берсерк». Дубляж на татарском языке – это энтузиазм и личные финансовые вложения. Мы хотим, чтобы люди знали: мы делаем это за свои деньги. Наши актеры получают меньше, чем в других проектах, но соглашаются на такие условия ради развития татарского контента. Перевод одной 20-минутной серии обходится примерно в 10-12 тысяч рублей, – пояснил он.
Ученик 11 класса Нурислам Денисов и его команда разработали приложение «Ләйлек» для подбора татарских имен. Оно позволяет пользователям находить красивые и значимые имена, предлагая уникальный поиск по смыслу. В приложении можно выбрать имя с глубоким значением, благородным звучанием или редкое имя, соответствующее определенной категории.
Несмотря на представление проекта на маркетплейсе, платформа Rustore отказалась принять его, объясняя это тем, что приложение не ориентировано на русскоязычную аудиторию. В то же время публикация русской или английской версии не вызвала бы никаких затруднений. Этот случай подчеркивает существование барьера для цифровых продуктов на татарском языке и ограниченные возможности их распространения.
В завершение участники подчеркнули, что для ускорения цифровизации татарского языка необходима государственная поддержка. «Нам нужны гранты для крупных проектов, мощные серверы, квалифицированные программисты. Если татарский язык не будет цифровизирован, его использование будет сокращаться с каждым днем», – считают спикеры.
Главный вызов XXI века для татарского языка – обеспечение его полноценного функционирования в цифровой среде. Сохранение языка – это не превращение его в музейный экспонат, а его активное использование в повседневной жизни и в мире технологий.
Результаты круглого стола показали, что у татарского языка есть значительные цифровые перспективы, но для их реализации необходимы государственная поддержка, специалисты и финансирование. Только через цифровизацию можно обеспечить сохранение языка для будущих поколений.
Фотографии Нияза Гатауллина
Айзиля АБДРАХМАНОВА
ВСЕМИРНЫЙ ФОРУМ ТАТАРСКОЙ МОЛОДЕЖИ