KudoZ: term help for translators

The KudoZ network provides a framework for translators and others to assist each other with translations or explanations of terms and short phrases.

английский term

yanadeni (X)

Канада

1061 questions

back-off

английский => русский Техника Компьютеры (в целом)

In Statistical Machine Translation, customized machine translation engines are created based on a large amount of project-specific training data, usually a TM of at least one million words. A statistical mechanism creates a translation system on the basis of this input, ***using a baseline of a minimum of 300 millions words as back-off to cover the basic words and patterns in any language.*** The MT output is therefore very specific to this project, mirroring the existing material as much as possible. This means that the machine translation for each project will behave differently as the training material will be different. It also means that the quality of the machine translation will correspond to the quality of the training material.

Не очень понятен выделенный отрывок. Вначале там говорят про 1 миллион слов, и тут же их сразу в 300 раз больше. Откуда? Возможно, ответ кроется в слове back-off, но мультитран и поиск по прозу мне не раскрыли его смысла.

Спасибо

Proposed translations (русский)

3	вспомогательное средство (база)/резерв	Edgar Hermann
5 +1	основа, база	VICTORIA WILKES
3 +2	общеязыковая база	Sergey Savchenko

Discussion

yanadeni (X) (asker) Jan 30, 2012: Автор статьи ответил We use client/project TMs for the customization; ideally these should be at least around the 1 mio word mark, however we have worked with smaller TM sizes. The baseline is the general corpus.
yanadeni (X) (asker) Jan 23, 2012: ТМ обычно уже создана живыми переводчиками. Пока наиболее правдоподобной выглядит версия о 300 миллионах слов некоего лексического корпуса. Хотя всё равно мне кажется, это многовато.
Enote Jan 23, 2012: написано ТМ содержит не менее 1 млн слов и создается из базы/корпуса в 300 млн слов общей лексики при помощи введенных обучающих данных
Vadim Smyslov Jan 22, 2012: На мой взгляд, миллион маловато даже в первом приближении для действительно хорошей работы статистических методов. Подробнее не погружался. Думаю, 300 миллионов много, но реально в наше Интернет-время. Ну и вопрос — как считать слова и как исключать дублирование. Дублирование — back-off статистики. Как считать юниты, сегменты понятно.
yanadeni (X) (asker) Jan 22, 2012: То есть, получается, чтобы клиента перевести на МТ, необходима база из минимум 300 миллионов слов? Многовато чего-то... Я пока слышала про 1 миллион.
Vadim Smyslov Jan 22, 2012: back-off здесь примерно => background IMHO. Что касается миллиона и 300 миллионов, то миллион в ТМ, связанной с проектом, а 300 в общей базе

Proposed translations

18 мин

Edgar Hermann

6720 answers

Native in русский

Works in field

Selected

вспомогательное средство (база)/резерв

используя базу, насчитывающую как минимум 300 млн. слов в качесте вспомогательного средства (резерва).

--------------------------------------------------
Note added at 21 mins (2012-01-22 19:56:50 GMT)
--------------------------------------------------

напрашивается back up

--------------------------------------------------
Note added at 24 mins (2012-01-22 19:59:30 GMT)
--------------------------------------------------

Да, это какя-то общая база, но, что-то 300 млн. слов действительно многовато. Может смысловых/лексических едениц, т.е. словосочетаний всяких.

Note from asker:

Т.е. это некий corpus, который не обязательно client specific?

4 KudoZ points awarded for this answer.

27 мин

Sergey Savchenko

Украина

1140 answers

Native in русский

общеязыковая база

Согласен с предыдущими ораторами в том, что это некий background. Он противопоставляется базе по тематике проекта (в 1 миллион) и дополняет его - используется для проверки общей сочетаемости слов и т.п.

Peer comment(s):

agree	Vadim Smyslov : вот как-то так 5 мин
agree	Igor Blinov 20 час

6 час

VICTORIA WILKES

11 answers

Native in английский & русский

основа, база

300 миллионов слов - возможная комбинация, которая основана на базе 1 миллиона слов

Peer comment(s):

agree

Enote : слово правильное, но смысл обратный - 1 млн выбирают из базы в 300 млн

1 час

английский term

back-off

Discussion

Proposed translations

вспомогательное средство (база)/резерв

Something went wrong...

общеязыковая база

Something went wrong...

основа, база

Something went wrong...

Your current localization setting

Select a language

английский term

back-off

Discussion

Proposed translations

вспомогательное средство (база)/резерв

Something went wrong...

общеязыковая база

Something went wrong...

основа, база

Something went wrong...

You have native languages that can be verified

Your current localization setting

Select a language