Jan 22, 2012 19:35
12 yrs ago
английский term
back-off
английский => русский
Техника
Компьютеры (в целом)
In Statistical Machine Translation, customized machine translation engines are created based on a large amount of project-specific training data, usually a TM of at least one million words. A statistical mechanism creates a translation system on the basis of this input, ***using a baseline of a minimum of 300 millions words as back-off to cover the basic words and patterns in any language.*** The MT output is therefore very specific to this project, mirroring the existing material as much as possible. This means that the machine translation for each project will behave differently as the training material will be different. It also means that the quality of the machine translation will correspond to the quality of the training material.
Не очень понятен выделенный отрывок. Вначале там говорят про 1 миллион слов, и тут же их сразу в 300 раз больше. Откуда? Возможно, ответ кроется в слове back-off, но мультитран и поиск по прозу мне не раскрыли его смысла.
Спасибо
Не очень понятен выделенный отрывок. Вначале там говорят про 1 миллион слов, и тут же их сразу в 300 раз больше. Откуда? Возможно, ответ кроется в слове back-off, но мультитран и поиск по прозу мне не раскрыли его смысла.
Спасибо
Proposed translations
(русский)
3 | вспомогательное средство (база)/резерв | Edgar Hermann |
5 +1 | основа, база | VICTORIA WILKES |
3 +2 | общеязыковая база | Sergey Savchenko |
Proposed translations
18 мин
Selected
вспомогательное средство (база)/резерв
используя базу, насчитывающую как минимум 300 млн. слов в качесте вспомогательного средства (резерва).
--------------------------------------------------
Note added at 21 mins (2012-01-22 19:56:50 GMT)
--------------------------------------------------
напрашивается back up
--------------------------------------------------
Note added at 24 mins (2012-01-22 19:59:30 GMT)
--------------------------------------------------
Да, это какя-то общая база, но, что-то 300 млн. слов действительно многовато. Может смысловых/лексических едениц, т.е. словосочетаний всяких.
--------------------------------------------------
Note added at 21 mins (2012-01-22 19:56:50 GMT)
--------------------------------------------------
напрашивается back up
--------------------------------------------------
Note added at 24 mins (2012-01-22 19:59:30 GMT)
--------------------------------------------------
Да, это какя-то общая база, но, что-то 300 млн. слов действительно многовато. Может смысловых/лексических едениц, т.е. словосочетаний всяких.
Note from asker:
Т.е. это некий corpus, который не обязательно client specific? |
4 KudoZ points awarded for this answer.
+2
27 мин
общеязыковая база
Согласен с предыдущими ораторами в том, что это некий background. Он противопоставляется базе по тематике проекта (в 1 миллион) и дополняет его - используется для проверки общей сочетаемости слов и т.п.
+1
6 час
основа, база
300 миллионов слов - возможная комбинация, которая основана на базе 1 миллиона слов
Peer comment(s):
agree |
Enote
: слово правильное, но смысл обратный - 1 млн выбирают из базы в 300 млн
1 час
|
Discussion
Пока наиболее правдоподобной выглядит версия о 300 миллионах слов некоего лексического корпуса. Хотя всё равно мне кажется, это многовато.
Что касается миллиона и 300 миллионов, то миллион в ТМ, связанной с проектом, а 300 в общей базе