В переводчике Google появятся 110 новых языков

162
Фото: Google

Среди них: абхазский, башкирский, чеченский, бурятский, осетинский, удмуртский, якутский, кантонский диалект китайского и мэнский.

На новых языках, которые добавили в «Переводчик», говорят более 614 миллионов человек, подчеркнули в Google. В будущем количество поддерживаемых языков должно дойти до 1000.

Вот примеры языков, которые будут поддерживаться в Google Translate:

  • афар — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии;
  • кантонский диалект, который используют в Китае;
  • мэнкс — кельтский язык острова Мэн. Он почти перестал использоваться со смертью последнего носителя языка в 1974 году, но сейчас на нём снова говорят тысячи людей;
  • НКо — это стандартизированная форма западноафриканских языков мандинг, которая объединяет многие диалекты. Уникальный алфавит языка был изобретен в 1949 году, и сегодня над ним работает активное исследовательское сообщество;
  • пенджаби (шахмукхи) — это разновидность пенджаби, написанная персидско-арабским письмом (шахмукхи), является наиболее распространённым языком в Пакистане;
  • тамазайт (амазиг) — берберский язык, на котором говорят в Северной Африке;
  • ток-писин — креольский язык английского происхождения и лингва-франка Папуа-Новой Гвинеи.
  • Подход Google при отборе языков заключался в определении приоритетности наиболее часто используемых их разновидностей. Например, цыганский язык включает множество диалектов. PaLM 2 научили генерировать текст, наиболее близкий к южному влакс-ромскому, широко используемому варианту в Интернете. Однако он включает и элементы диалекта северных влахов и балканских цыган.

В 2023 году Google представила модель PaLM 2, которая работает на 100 языках и, в том числе, на 20 языках программирования.

Комментарии