Как робот-переводчик находит и выучивает новые слова
Мы постоянно пользуемся машинными переводчиками, но редко задумываемся над тем, кто их составляет и, главное, пополняет по мере того, как в разные языки мира входят новые слова и значения. Создатели Яндекс.Переводчика разработали алгоритм, позволяющий им автоматически находить недавно вошедшие в язык новые слова, снабжать их переводами и словарным описанием и включать в корпус. О том, как это происходит, читателям N + 1 рассказывает разработчик сервиса Екатерина Еникеева.
Новые слова появляются в языке постоянно: в связи с технологическим прогрессом, модой и другими изменениями в окружающем мире. Какая-то часть новых слов образуется по действующим в языке механизмам словообразования: например, хлебопечка — явление относительно новое, но слово образовано из существующих корней по регулярной модели типа «соковыжималка» и так далее. Другие слова заимствуются из иностранных языков и постепенно адаптируются, начинают участвовать в словообразовании (например,
Обычные словари (бумажные и электронные), как толковые, так и переводные, над которыми работают лингвисты-лексикографы, составляются несколько лет, выпускаются отдельными томами или целиком, поэтому не могут оперативно фиксировать изменения в языке, особенно в лексике, которая меняется и обновляется постоянно. И хотя существуют специальные словари новых слов, многие из них уже представляют собой исторические памятники, например, «Новые слова и значения» — словари 1980-90 годов.
В Яндекс.Переводчике мы разрабатываем уникальные машинные словари — это переводные словари, которые создаются автоматически на основе параллельных корпусов, то есть коллекций текстов на одном языке с их переводом на другой. О соответствии разноязычных текстов мы знаем благодаря тому, что Яндекс — это поисковая машина, которая видит практически весь интернет. Например, существуют параллельные переводы описания отелей или различной литературы, статей.
Для составления машинного словаря такие тексты выравниваются, то есть сначала сопоставляются те предложения, которые являются переводами друг друга, а затем более короткие их фрагменты — слова и словосочетания. Затем с помощью статистических методов и дополнительных лингвистических фильтров выделяются те слова и словосочетания, которые являются регулярными переводами. В результате наши машинные словари постепенно приближаются к традиционным переводным словарям, поскольку содержат также грамматическую информацию, примеры употребления, синонимы и некоторые другие дополнительные разделы.
Статьи в машинном словаре выглядят следующим образом:
При этом следует помнить, что машинные словари — это отдельный продукт внутри Яндекс.Переводчика. Они дополняют знание пользователя о переведенном слове, тогда как сам машинный перевод использует другую модель. Статьи из машинного словаря размещаются под полями ввода и перевода.
Один из главных плюсов таких словарей — возможность их регулярного обновления. Машинные словари строятся по параллельным корпусам, которые регулярно обновляются, поэтому новые слова и значения там появляются значительно быстрее. Кроме того, использование текстов из интернета позволяет нам получать более общеупотребительные или даже разговорные переводы.
Однако параллельных текстов в интернете в принципе не так много, поэтому частое обновление корпуса не всегда дает хорошие результаты: реальные изменения и новые слова сложно отличить от шума — ошибок, опечаток и тому подобного. Поэтому мы решили использовать одноязычные данные (в первую очередь на русском языке), чтобы находить слова, недавно возникшие в языке.
Когда появляются новые слова и понятия, люди начинают искать их в интернете. Проанализировать изменения мы можем, посмотрев на историю поисковых запросов. Мы предположили, что новые слова, появившиеся в последние полгода, будут искать в несколько раз чаще, чем в предыдущие полгода. Предположение подтвердилось: так, слово «хайп» в первом полугодии 2017 года искали почти в два раза чаще, чем в 2016 году, даже несмотря на то, что слово на самом деле не новое.
Вообще, среди слов, которые чаще искали в 2017 году, оказываются далеко не только новые слова, и для создания машинных словарей это серьезная проблема. Часто новые запросы — это имена ньюсмейкеров, то есть персон, появляющихся в новостях (например,
Чтобы из всего этого разнообразия оставить действительно новые слова, приходится использовать набор специальных лингвистических фильтров. В частности, мы проверяем, является ли слово именованной сущностью, есть ли оно в морфологическом словаре (можно ли с уверенностью предсказать грамматические признаки слова, например, к какой части речи оно относится), встречается ли оно в запросах о значении слов (например, «что такое …» или «… значение»). Запросы с опечатками исправляются и объединяются с правильными написаниями, если они встречаются в полученном списке. Таким образом мы получаем намного меньше кандидатов в новые словарные слова (за первое полугодие 2017 года, например, около тысячи из исходных 78 тысяч, например
Таким образом, мы получаем список слов, предположительно ставших популярными в определенное время. Следующий этап автоматического составления словарной статьи — поиск перевода для этих слов. При построении машинного словаря по параллельным текстам мы используем имеющуюся там информацию о переводе. При отборе новых слов мы пользовались только одноязычными данными поисковых запросов на русском языке, следовательно, теперь нужно применять другой подход.
Значительная часть новых слов — заимствования, в основном — из английского, но не только. Этот факт можно использовать, чтобы попытаться предсказать переводы на английский язык для неологизмов. Современные заимствования получаются обычно в результате записи кириллицей чего-то похожего на произношение иностранного слова, причем не всегда соответствующего нормативной транскрипции (например, свитшот — от англ. sweatshirt, то есть толстовка из плотного материала без карманов).
Итак, из имеющихся словарных статей машинного словаря мы получили список слов, похожих на заимствования, и их переводов, а затем обучили специальную модель транслитерации из русского слова обратно в иноязычное. Эта модель позволяет порождать несколько вариантов транслитерации заданного слова, например, для слова «свитшот» получаем такие варианты:
Как уже было сказано выше, статьи в нашем машинном словаре включают не только слово и варианты его перевода, но и некоторую дополнительную информацию. В случае с неологизмами эта информация особенно важна: примеры использования и грамматические пометы могут помочь понять значение слова и правильно его использовать.
Чтобы составить словарную статью, а не только правильно перевести новое слово, нужны еще некоторые данные. Важными составляющими словарной статьи в нашем машинном словаре являются грамматические пометы (в основном это части речи, но могу быть и дополнительные) и примеры употребления. Поскольку слово может иметь несколько омонимов разных частей речи (например, русское слово знать может быть существительным и глаголом), важно учитывать контекст.
С другой стороны, в примерах употребления слова могут быть не в начальной форме (например, существительное в косвенном падеже), а их нужно сопоставить со словом именно в начальной форме. Поэтому мы получаем морфологическую информацию одновременно с примерами: разбираем синтаксическим парсером запросы за необходимый период и ищем в них уже найденные новые слова по начальной форме. Запросы с новыми словами также нужно отфильтровать: во-первых, убрать грамматически некорректные фразы (например, «мультиварка редмонд инструкция скачать»), затем неинформативные примеры («айфоны в москве»). Отсортировав результаты по частоте, мы получаем достаточно хорошие примеры употребления для многих новых слов.
Так, например, выглядит статья для слова «хайповый»:
В результате у нас есть «черновик» словарной статьи, полученный автоматически, который затем проверяют пользователи Толоки (сервиса Яндекса, в котором размещены задания по анализу и оценке контента).
Таким образом, с помощью технологий машинного обучения машинные словари сервиса Яндекс.Переводчик оперативно пополняются переводами самых разных новых слов, включая сленговые, и нам для этого не нужно ждать обновления неповоротливых словарей на стороне, потому что современный язык, к сожалению или к счастью, развивается гораздо быстрее.
«Потрачено»: сможет ли машина заменить живого переводчика
Не секрет, что роботы скоро заменят нас во многих профессиях, и кажется, что переводчики стоят в первых рядах: уже сейчас есть средства для перевода текста и распознавания речи
Но пока «живые» специалисты не остаются без работы. Почему компьютер пока не может догнать человека? И может ли это все-таки произойти? Об этом мы расскажем в кратком изложении лекции Алексея Малова.
О спикере: Алексей Малов — практикующий переводчик-синхронист, кандидат филологических наук, координатор переводчиков и редакторов студии «Vert Dider».
Алексей Малов — Переводчик умер, да здравствует переводчик!
Как работают современные автоматические системы перевода
В общих чертах, существует три системы:
-
Перевод на основе правил.
С этого начинались первые системы машинного перевода. Их проблема состоит в том, что машина, зачастую, переводит слишком дословно, строго следуя заданным параметрам и не используя синонимы, из-за чего текст оказывается некорректным. Примером могут служить меню кафе или странички в путеводителях где-нибудь за границей лет десять тому назад, где можно было встретить совершенно невероятные блюда вроде «овощей с нефтью» и рассказы о поездке на «говяжьей упряжке». Правда, вряд ли какая-то из существующих систем перевода на основе правил сейчас выдаст такую же ошибку, так как их постоянно совершенствуют.
-
Статистический перевод.
На настоящий момент существует множество параллельных текстов (на русском и иностранном языке), которые оцифрованы и загнаны на сервера и оформлены в параллельный корпус (текст оригинала и его перевод на другой язык выровнены так, что все фрагменты оригинала совпадают с соответствующими фрагментами перевода). С их помощью человек может понять, в каких случаях то или иное слово употреблялось, с какими зависимыми словами, в каком контексте и т.д. Задача системы в данном случае — найти максимально подходящее соответствие, которое уже перевели, и выдать этот вариант. Проблема: наиболее частый вариант перевода не всегда соответствует конкретной ситуации. Самый яркий пример — слово «wasted», всплывающее после смерти персонажа в игре GTA, которое на русский язык было неверно переведено как «потрачено».
-
Машинный перевод.
Машины хорошо учатся и уже обыгрывают нас в го и шахматы, рисуют картины, сочиняют песни и оценивают работы студентов не хуже преподавателей. Когда они заменят человека в вопросах перевода и заменят ли?
Они уже (чаще всего) разбираются в синонимах, и это, на первый взгляд, действительно создает угрозу «живым» специалистам. Но все не так просто.
Одна из проблем машинного перевода заключается в распознавании нюансов, оттенков эмоций и контекста. Во многом люди и сами не до конца умеют распознавать эти тонкости: учитывая, что машины пока обучаются людьми, говорить о полной замене переводчиков роботами некорректно.
Как научить машины распознавать эмоции, которые мы сами не всегда ясно определяем?
Можно обратиться к лингвистам и филологам, однако никто из них не даст точную оценку того, что конкретно считать яростью, что — гневом, а что — злостью. Но можно обратиться к нейропсихологам.
Существует квартетная теория человеческих эмоций, согласно которой в нашем мозге есть несколько зон, отвечающих за то, что мы чувствуем: ствол, диэнцефалон, гиппокамп и орбитофронтальная кора. Понимание того, как работают эти зоны, может существенно облегчить работу специалистов по машинному переводу. Идя дальше, можно проанализировать с помощью МРТ активность мозга различных людей, вызвав у них определенные эмоции и попросив описать то, что они при этом чувствуют, после чего сравнить результаты с ответами иностранных испытуемых. А эти данные уже подвергнуть оцифровке и использовать в обучении машин. Но МРТ — дорогая диагностика, используемая в медицине, и ее применение в лингвистических вопросах не всегда целесообразно. Однако Университет Беркли все же задался похожей целью: ученые зачитывали тексты испытуемым и мониторили их активность мозга, после чего сравнили слова, которые были зачитаны, с тем, какая часть мозга была активна в это время. В результате была составлена семантическая карта мозга.
Также в определении эмоций и последующем обучении этому машин может помочь скалярный подход (суть заключается в том, что любому эмоциональному стимулу, в том числе и вербальному, присваивается числовое значение по шкалам, каждая из которых отражает одну из характеристик). Эксперименты с его применением уже проводились: носителям разных языков называли определенные слова и просили оценить, используя шкалы, что они при этом чувствуют. С помощью этих опросов были сформированы несколько баз данных для разных языков, но русского там нет.
Проведя собственное исследование, Алексей выяснил интересную вещь: слова англоязычные и русскоязычные носители «чувствуют» с совершенно с разной интенсивностью. Его респондентам нужно было оценить то, насколько позитивную или негативную эмоцию они испытывают при упоминании слова «sad», то есть грусть, печаль. Англоговорящие респонденты оценили ее по шкале от 1 до 9 на 1,6, то есть это — почти самая негативная эмоция, которую они могли бы испытать. Русскоязычные участники исследования же оценили эмоцию примерно на 3,5. Вероятно, в нашем сознании сильны такие понятия как приятная грусть или светлая печаль. Это еще раз доказывает важность контекста, а также происхождения, опыта и эмоционального интеллекта конкретного человека.
Пока мы сами до конца не разобрались, как все это работает, мы не сможем научить этому машину. И пока ни одна из существующих систем перевода не лучше человека. Лишат ли они работы переводчиков в будущем? Плохих — скорее всего. Хороших — вряд ли.
Больше информации и новостей о трендах образования в нашем Telegram-канале. Подписывайтесь.
Robot Translator — ЗначениеHippo
«робот-переводчик» в онлайн-словаре. Определение робота-переводчика. Как еще можно назвать робота-переводчика? Это правильное место, где вы получите правильную информацию. Что делает робот-переводчик? Тем не менее, проверьте робота-переводчика в нашем онлайн-словаре ниже.
Содержание:
- Переводчик языка роботов ― LingoJam
- Я, робот? – Будущее перевода
- Генератор голоса робота (воспроизведение/скачать) ― LingoJam
- Роботизированный перевод — это будущее переводческой индустрии (так ли это?) –
- RoboTalk — прототипирование робота-гуманоида для преобразования речи в жест . ..
- Запрос роботизированного переводчика | Pega
- Google Translator
- Робот-переводчик позволяет рыбам и пчелам общаться друг с другом …
- Рыбы и пчелы «разговаривают» с помощью роботов-переводчиков | …
- Переводчик диалогов Pepper – SoftBank Robotics Developer
1. Переводчик языка роботов ― LingoJam
https://lingojam.com/RobotLanguageTranslator
Переводчик языка роботов. (Р0807 Л4Н6У463 7Р4Н2Л470Р). Создать случайное предложение. Отправлять. Лол, преврати нормальный язык в R0807 L4N6U463. ↓ Подробнее… ↓.
2. Я, Робот? – Будущее перевода
http://www.mediateo.com/robot-future-translation/
3. Генератор голоса робота (воспроизведение/скачать) ― LingoJam
https://lingojam.com/RobotVoiceGenerator
СОЗДАТЬ ПЕРЕВОДЧИК… Преобразует ваш текст в голос робота, который можно загрузить в виде аудиоклипа! … Текст для голоса робота.
4. Роботизированный перевод — будущее переводческой индустрии (так ли это?) —
https://www.unitedtranslations.com/robotic-translation-is-the-future-of-translation-industry-is-it/
https://scholarspace.manoa.hawaii.edu/handle/10125/59611
6. Запрос переводчика роботизированной автоматизации | Pega
https://community.pega.com/knowledgebase/articles/pega-rpa/requesting-robotic-automation-translator
7. Переводчик Google
https://translate.google.com/translate_t
8. Робот-переводчик позволяет рыбам и пчелам общаться друг с другом …
https://www.techtimes.com/articles/ 240125/20190323/робот-переводчик-позволяет-рыбам-и-пчелам-общаться-друг-другом.htm
23 марта 2019 г. … С помощью робота-переводчика инженеры из Швейцарского федерального института … самый последний из них – эксперимент с рыбой, в котором роботы действуют как …
9. Рыбы и пчелы «разговаривают» с помощью роботов-переводчиков | …
https://www.the-scientist.com/news-opinion/fish-and-bees-talk-with-help-from-robot-translators-65621
10. Переводчик диалогов Pepper – SoftBank Robotics Developer
https://developer.softbankrobotics.com/blog/pepper-dialogue-translator
Наконец-то вы получили ответ робота-переводчика в этой статье. Мы обновляем информацию о роботизированном языковом переводчике ― LingoJam. Спасибо за чтение.
Робот-переводчик веб-сайта на иностранном языке, векторное изображение
Робот-переводчик веб-сайта на иностранном языке, векторное изображение- лицензионные векторы
- Веб-сайт векторов
ЛицензияПодробнее
Стандарт Вы можете использовать вектор в личных и коммерческих целях. Расширенный Вы можете использовать вектор на предметах для перепродажи и печати по требованию.Тип лицензии определяет, как вы можете использовать этот образ.
Станд. | Расшир. | |
---|---|---|
Печатный / редакционный | ||
Графический дизайн | ||
Веб-дизайн | ||
Социальные сети | ||
Редактировать и изменять | ||
Многопользовательский | ||
Предметы перепродажи | ||
Печать по запросу |
Способы покупкиСравнить
Плата за изображение $ 14,99 Кредиты $ 1,00 Подписка $ 0,69Оплатить стандартные лицензии можно тремя способами. Цены $ $ .
Оплата с помощью | Цена изображения |
---|---|
Плата за изображение $ 14,99 Одноразовый платеж | |
Предоплаченные кредиты $ 1 Загружайте изображения по запросу (1 кредит = 1 доллар США). Минимальная покупка 30р. | |
План подписки От 69 центов Выберите месячный план. Неиспользованные загрузки автоматически переносятся на следующий месяц. |
Способы покупкиСравнить
Плата за изображение $ 39,99 Кредиты $ 30,00Существует два способа оплаты расширенных лицензий. Цены $ $ .
Оплата с помощью | Стоимость изображения |
---|---|
Плата за изображение $ 39,99 Оплата разовая, регистрация не требуется. |