nixp.ru v3.0

20 апреля 2024,
суббота,
05:09:45 MSK

5 октября 2010, 14:21

В OCR-системе Tesseract 3.00 появилась поддержка русского языка

4
FreeOCR, использующий Tesseract OCR
FreeOCR, использующий Tesseract OCR
Иллюстрация с сайта Techblissonline.Com

1 октября была анонсирована новая стабильная версия Open Source-системы распознавания текста (OCR) — Tesseract 3.00. В ней появилась поддержка множества языков, среди которых и русский.

Начало разработки OCR-системы Tesseract было положено еще в 1985—1994 годах в лабораториях HP. Сейчас приложение работает в Linux, Mac OS X и Windows, распространяется под свободной лицензией Apache License 2.0.

Среди изменений в релизе Tesseract 3.00 отмечаются:

  • проведена подготовка для обеспечения безопасности работы потоков;
  • новый модуль анализа разметки страницы;
  • новый вывод HOCR;
  • использование Leptonica в качестве основного средства ввода/вывода изображений и работы с ними;
  • отказ от поддержки VC++ 6;
  • появление поддержки множества новых языков, таких как русский и украинский.

Файлы с релизом Tesseract 3.0 доступны на code.google.com.

Постоянная ссылка к новости: http://www.nixp.ru/news/10755.html. Дмитрий Шурупов по материалам Groups.Google.com.

fb twitter vk