Компания Google сделала самое большое расширение в истории своего сервиса перевода Google Translate, добавив 110 новых языков, включая крымскотатарский. Об этом сообщила пресс-служба компании в четверг, 27 июня.
«Благодаря нашей большой языковой модели PaLM 2 мы начинаем добавлять 110 новых языков в Google Переводчик, что является самым большим расширением за всю историю», — говорится в заявлении.
Вот некоторые из новых языков, которые будут поддерживаться в Google Переводчике:
- Афар — это тональный язык, на котором говорят в Джибуте, Эритрее и Эфиопии.
- Кантонский язык — он уже давно является одним из самых запрашиваемых языков для Google Переводчика.
- Крымскотатарский язык — тюркский язык, родной язык крымских татар. Сегодня крымскотатарский язык относится к языкам, требующим дополнительной защиты по классификации UNESCO.
- Менский — это кельтский язык острова Мэн.
- НКО — это стандартизированная форма западноафриканских языков мандинка, объединяющая много диалектов в один общий язык.
- Панджаби (Шахмукхи) — это разновидность панджаби, пишущегося персидско-арабским письмом (шахмукхи), и является самым распространенным языком в Пакистане.
- Тамазигский (амазигский) — это берберский язык, на котором говорят в Северной Африке.
- Ток-писин — это креольский язык на основе английского и язык межнационального общения Папуа-Новой Гвинеи.
В Google отметили, что существует много факторов, которые учитываются при добавлении новых языков в переводчик.
«Наш подход заключается в следующем: приоритизировать наиболее употребляемые разновидности каждого языка. Например, у ромского языка много диалектов по всей Европе. Наши модели создают текст, наиболее близкий к южно-влахскому ромскому, разновидности, которая широко используется в Интернете. Но он также содержит элементы других диалектов, таких как северо-влахский и балканский ромский», — объясняют в компании.
В компании обещают, что в будущем сервис будет поддерживать больше языковых разновидностей и правил правописания.