4 февр. 2010 г.

OCR для Linux - установка Cuneiform

Думала, нету для Linux'a OCR - распознавание текста в отсканированном изображении, ан нет. Есть. Туточки нашла упоминание. Загрузила отсюда. А здесь есть описание этой программы. А, самое главное-то - Cuneiform она называется. И, как сказала потом сама прога, она поддерживает языки:
Supported languages: eng ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur
И поддерживаемые выходные форматы:
html, hocr, native (Cuneiform 2000 format), rtf, smarttext, text




Архив распаковала, а в нём - какие-то странные файлы. Что-то подумалось мне, что не ./configure тут нужно... Но, благо, на сайте, где описание, упоминается какое-то cmake. Я в synaptic - искать... Есть он там, этот симейк. УРА! Вопрос - что с ним делать. Но дело было вечером, позавчера. Поздно уже. Вот вчера попробовала собрать эту программу - Cuneiform.
Беспорядочный сумбур, происходивший про сборке, рассказывать не нужно.
Самое главное.
Ставлю пакеты: sudo apt-get install cmake libmagick++-dev
cmake - система сборки приложений, то бишь то, чем собирать, ха-ха!
libmagik++-dev - библиотеки для проги imagemagic, тоже нужные для сборки, без них прога будет распознавать только из bmp
Архив я уже распаковала. Перехожу в директорию с распакованными файлами. Это папка cuneiform-linux-0.9.0. Внимательно читаю несколько раз, затем перевожу на русский, снова читаю, ничего не понимаю и третий раз читаю снова на инглицком содержимое файла readme.txt. Делаю как там написано:
mkdir builddir - создаю папочку, в которой будет собираться прога и создавать файлики для сборки.
cd builddir - перехожу в эту папочку, теперь буду работать в ней.
Тут, наконец, можно применить установленный cmake. Только с каким параметром - вот вопрос. Сиё мне было не ясно. -DCMAKE_BUILD_TYPE=debug или -DCMAKE_BUILD_TYPE=release или -DCMAKE_BUILD_TYPE=relwithdebinfo. Фиг знает. Выбрала второе, наобум. Так же можно указать, в какую директорию, отличную от /usr/local устанавливаться проге. Для этого есть -DCMAKE_INSTALL_PREFIX=/путь/к/нужной/директории.
Запускаю симейк: cmake -DCMAKE_BUILD_TYPE=release ..
Две точечки в конце команды указать обязательно, они говорят о том, что файлы, нужные для сборки лежат в директории выше. А то, ы!, обругает нехорошими словами, что нету файлов для конфигурирования!
Процесс пошёл... Всё прошло нормально, никакой ругани на исходе процесса не обнаружилось. В папке builddir появился файл Makefile. Угу, знакомые все лица... То есть файл знакомый. Теперь можно:
make
Поехали... Посыпалось много разноцветных строк и проценты выполнения в прямоугольных скобках... Приехали. Всё чудесно.
Теперь можно было установить программу. Но я решила попробовать собрать пакет deb. Пригодится! Только перед этим проверить, не открыт ли где поблизости synaptic, а то фига получишь. "Процесс занят" - или чего там оно напишет.
Запускаю сборку пакета: sudo checkinstall
Отвечаю на стандартные вопросы:
The package documentation directory ./doc-pak does not exist.
Should I create a default set of package docs? [y]: y
- валяй, создавай!
Пожалуйста напишите описание пакета. - скопировала описание из readme.txt
Использованные значения, пронумерованные. Чтоб изменить, можно ввести нужный номер, а потом свой параметр. Я, например, поменяла 2 - Name. А то по умолчанию предлагалось имя папки builddir, поменяла на название проги - cuneiform. Был ещё интересный вопрос исключить что-то из пакета, вроде как файлы, нужные при сборке. И предлагался ответ:
ответить ДА-хорошая идея
Ну раз хорошая, возражать не стала!
Собирается Debian-пакет...OK
Вот и усё... Вроде бы. Можно попробовать... Э, пока собираешь прогу, забудешь, зачем она нужна!! А, для распознавания текста! Можно броситься рыть по закромам в поисках скана с текстом, можно срочно что-то отсканировать, чтоб "скормить" программе... Но тут меня ждал странный сюрприз...
Но на сегодня хватит...
Продолжение... 

Комментариев нет: