Jan 22, 2012 19:35
12 yrs ago
английский term

back-off

английский => русский Техника Компьютеры (в целом)
In Statistical Machine Translation, customized machine translation engines are created based on a large amount of project-specific training data, usually a TM of at least one million words. A statistical mechanism creates a translation system on the basis of this input, ***using a baseline of a minimum of 300 millions words as back-off to cover the basic words and patterns in any language.*** The MT output is therefore very specific to this project, mirroring the existing material as much as possible. This means that the machine translation for each project will behave differently as the training material will be different. It also means that the quality of the machine translation will correspond to the quality of the training material.

Не очень понятен выделенный отрывок. Вначале там говорят про 1 миллион слов, и тут же их сразу в 300 раз больше. Откуда? Возможно, ответ кроется в слове back-off, но мультитран и поиск по прозу мне не раскрыли его смысла.

Спасибо

Discussion

yanadeni (X) (asker) Jan 30, 2012:
Автор статьи ответил We use client/project TMs for the customization; ideally these should be at least around the 1 mio word mark, however we have worked with smaller TM sizes. The baseline is the general corpus.
yanadeni (X) (asker) Jan 23, 2012:
ТМ обычно уже создана живыми переводчиками.
Пока наиболее правдоподобной выглядит версия о 300 миллионах слов некоего лексического корпуса. Хотя всё равно мне кажется, это многовато.
Enote Jan 23, 2012:
написано ТМ содержит не менее 1 млн слов и создается из базы/корпуса в 300 млн слов общей лексики при помощи введенных обучающих данных
Vadim Smyslov Jan 22, 2012:
На мой взгляд, миллион маловато даже в первом приближении для действительно хорошей работы статистических методов. Подробнее не погружался. Думаю, 300 миллионов много, но реально в наше Интернет-время. Ну и вопрос — как считать слова и как исключать дублирование. Дублирование — back-off статистики. Как считать юниты, сегменты понятно.
yanadeni (X) (asker) Jan 22, 2012:
То есть, получается, чтобы клиента перевести на МТ, необходима база из минимум 300 миллионов слов? Многовато чего-то... Я пока слышала про 1 миллион.
Vadim Smyslov Jan 22, 2012:
back-off здесь примерно => background IMHO.
Что касается миллиона и 300 миллионов, то миллион в ТМ, связанной с проектом, а 300 в общей базе

Proposed translations

18 мин
Selected

вспомогательное средство (база)/резерв

используя базу, насчитывающую как минимум 300 млн. слов в качесте вспомогательного средства (резерва).

--------------------------------------------------
Note added at 21 mins (2012-01-22 19:56:50 GMT)
--------------------------------------------------

напрашивается back up

--------------------------------------------------
Note added at 24 mins (2012-01-22 19:59:30 GMT)
--------------------------------------------------

Да, это какя-то общая база, но, что-то 300 млн. слов действительно многовато. Может смысловых/лексических едениц, т.е. словосочетаний всяких.
Note from asker:
Т.е. это некий corpus, который не обязательно client specific?
Something went wrong...
4 KudoZ points awarded for this answer.
+2
27 мин

общеязыковая база

Согласен с предыдущими ораторами в том, что это некий background. Он противопоставляется базе по тематике проекта (в 1 миллион) и дополняет его - используется для проверки общей сочетаемости слов и т.п.
Peer comment(s):

agree Vadim Smyslov : вот как-то так
5 мин
agree Igor Blinov
20 час
Something went wrong...
+1
6 час

основа, база

300 миллионов слов - возможная комбинация, которая основана на базе 1 миллиона слов
Peer comment(s):

agree Enote : слово правильное, но смысл обратный - 1 млн выбирают из базы в 300 млн
1 час
Something went wrong...
Term search
  • All of ProZ.com
  • Поиск термина
  • Заказы
  • Форумы
  • Multiple search