"Оцифровка" или "распознавание текста" - это перевод текста из графических или других нередактируемых и не текстовых форматов документов в редактируемый.
К нередактируемым форматам мы относим печатные документы, запароленные PDF-файлы, факсы, чеки и прочие тексты в графических файлах (TIF, JPG, GIF).
Для процесса распознавания предварительно требуется получить набор графических файлов, содержащий текст документа. Документ в печатном виде сканируют. Запароленные документы распечатывают и сканируют, если не удается снять пароль специальной программой. В отдельных случаях можно их распечатать с помощью виртуальных принтеров и создать "другой" PDF-документ, который можно распознать, хотя часто эта операция терпит неудачу.
Просканированный документ загружают в систему OCR (автоматизированного распознавания текста). Процесс распознавания текста контролируется редактором, который вносит поправки в настройки системы распознавания и исправляет неправильно распознанные слова и символы. На выходе получается документ в формате Word, пригодный для редактирования и дальнейшей обработки: создание PDF-документа, стилистического редактирования, проверки грамотности.