nixp.ru v3.0

25 апреля 2024,
четверг,
05:08:29 MSK

23 июля 2010, 13:26

WatchOCR — LiveCD Linux для распознавания текста в PDF

2
Логотип WatchOCR
Логотип WatchOCR
Иллюстрация с сайта Watchocr.Com

Неизвестный читатель Slashdot представил общественности обнаруженный им проект LiveCD Linux-дистрибутива WatchOCR, предназначенного для быстрого и простого распознавания текста в PDF-файлах.

WatchOCR позиционируется как «свободный OCR-сервер для PDF». Он основан на LiveCD-дистрибутиве Knoppix и использует Open Source-средства CuneiForm и ExactImage для выполнения работы по распознаванию текста. В WatchOCR доступен простой веб-интерфейс, позволяющий удаленно настроить слежение за каталогом на факт поступления новых отсканированных PDF-файлов. При появлении таких файлов (PDF с изображениями) WatchOCR преобразует их в PDF с распознанным текстом.

Подробности о WatchOCR, статьи по его установке и настройке, а также форум доступны на сайте проекта.

Постоянная ссылка к новости: http://www.nixp.ru/news/10581.html. Дмитрий Шурупов по материалам Linux.Slashdot.org.

fb twitter vk
Филипп Корвин

Проект полезный, но почему бы его наработками не воспользоваться в других дистрибутивах? А то запускать отдельную систему для распознавания… как-то странноватенько.

apollo2k4

Как говорит один известный подкастер «Блеск и нищета OpenSource»

Филипп Корвин

Хорошая фраза :) Что за подкастер такой?

Hubbitus

Да почему не использовать-то? ExactImage не знаю, а CuneiForm не так давно дошел до релиза и сейчас включается в разные дистрибутивы. Например у нас, в Федоре он на ревью, то есть скоро появится для пользователей в репозиториях. Более того, сборку из исходников никто никому никогда не запрещал, уж если на то пошло. А дистрибутив создали, как часто бывает, именно чтобы «загрузился и посмотрел». Не слышал чтобы кто-то всерьез работал на стандартных, некастомизированных Лайв-дистрибутивах.
/>/>