бюро переводов
Бюро переводов
Москва,
Мясницкая, д. 24, стр. 3, оф. 23
+7(495) 504-71-35 с 9-30 до 17-30
info@flarus.ru | Как сделать заказ
Прайс-лист на переводы
Презентация компании

Стоимость перевода
Темы
Услуги бюро
Рабочие языки
Переводчики
О компании

Бюро переводов О компании Наши проекты

Автоматический определитель языка текста



Любой автоматический определитель языка имеет в своей основе какой-либо алгоритм работы. Алгоритм разработанного нами определителя языка Guesser.ru построен на последовательном сравнении из базы данных букв, сочетаний и слов, характерных для иностранного языка с соответствующими фрагментами загруженного текста. Подразумевается, что язык, на котором этот текст написан, требуется определить. Самым сложным и неоднозначным этапом стало не программирование алгоритма, а именно подбор буквенных сочетаний, которые мы назвали "маркерами" языка. Работу по наполнения таблицы маркеров выполнили профессиональные редакторы бюро переводов. Работа над списком маркеров ведется и по сей день, ведь характеристики языка достаточно условны и, к тому же, постепенно изменяются во времени.

В разработке нового алгоритма мы отошли от старого метода определения языка по списку заранее загруженных в наш глоссарий слов. Этот алгоритм хорошо определяет язык небольших текстов, предложений и даже отдельных слов, однако при определении языка объемных текстов, в процессе вычисления накапливается ошибка и результат существенно искажается случайным образом. Это возникает из-за одинакового написания коротких или популярных, а соответственно, наиболее частотных слов в разных языках и использования в них одинаковых букв.

определитель языка

Новый алгоритм требует большего объема текста для определения языка, однако ошибка определения уменьшается при увеличении объема исходных данных. Чем больше объем загруженного текста, тем больше итераций совершается по поиску вхождений в текст маркеров.

определитель языка, ввод текста

Определитель Guesser.ru находит маркеры нескольких языков и начинается процесс накопления веса каждого из языков. Каждый потенциально определенный язык суммирует вес маркера умноженный на кол-во вхождений этого маркера в текст. По окончании работы алгоритма, определитель языка сравнивает веса и выдает таблицу языков с вероятностью их определения.

определитель языка, результаты

Однако, при достаточно типичном для нескольких языков тексте, например, написанном на русском/болгарском, немецком/голландском, испанском/французском языках, набор веса каждого из "конкурирующих" языков идет практически с одним темпом. В результате определения языка текста мы получаем набор языков с очень близкими или вообще совпадающими значениями.

определитель языка, точность определения

Для компенсации маркеров для похожих по написанию языков, мы разработали и применили метод вычисления уникальности (по отношению к другим языкам) найденного в тексте маркера и таким образом смогли организовать "точки" обнуления вероятности накопленной ошибки. С этим дополнением, определитель может существенно повысить вероятность распознавания того языка, который имеет больше всего совпадений с текстом уникальных маркеров. Для большинства определяемых языков, к которым составлены таблицы маркеров, точность определения приближается к 98%.

Дополнительным достоинством определителя языка Guesser.ru является то, что его алгоритм может работать с многоязычными текстами, т.к. результатом работы является не один единственный язык, определенный с наибольшей вероятностью, а таблица языков с рассчитанной вероятностью их определения.

определитель языка, точность определения

Проверить работу пределителя языка





شركة ترجمة Бюро за преводи 翻译社 Překladatelská kancelář Übersetzugsbüro Oversættelse bureau Translation Agency, Moscow Agencia de traducciones Käännöstoimisto Agence de traduction მთარგმნელობითი ბიურო Γραφείο μεταφράσεων अनुवाद एजेंसी Prevodilacki biro Fordítóiroda Traduzioni scritte in russo 翻訳代理店 번역 회사 Аударма бюросы Орчуулгын товчоо Biuro tłumaczeń Birou de traduceri Tercüme Bürosu Бюро перекладів Văn phòng phiên dịch
Последний наш перевод:
"Перевод рассказа ". Художественный перевод. Переводчик №724

Метки перевода: немецкий, женщина, писатель, драгоценности, старик, спекуляция, молчание.

Переводы в работе: 43
Загрузка бюро: 33%
Все наши переводы: 24756

Наши клиенты

бюро переводов

Расчет стоимости перевода

Исходный язык:


Язык перевода:


Объем текста:




Стоимость перевода:
450,00 руб.

Заказать перевод

Проекты бюро


Бюро переводов "Flarus", 2001-2017  


Стоимость перевода   Услуги бюро   Переводчики   Темы   Рабочие языки   О компании  
Работа для переводчиков   Глоссарии
Москва,
Мясницкая, д. 24, стр. 3, оф. 23
+7 495 504-71-35
info@flarus.ru | Контакты | PDF