Распознавание строк
От: Sviatoslav Sviridov  
Дата: 19.04.02 09:11
Оценка:
Доброго времени суток!

Задачка такая:
Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса).
Необходимо подобрать наилучшие варианты для плохо распознанных.
Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.

Буду благодарен за любые комментарии либо ссылки.
Re: Распознавание строк
От: visitant Украина  
Дата: 19.04.02 09:33
Оценка:
Может быть, нейронные сети (Neural Networks) ?
Re: Распознавание строк
От: Кодт Россия  
Дата: 19.04.02 09:35
Оценка:
Здравствуйте Sviatoslav Sviridov, Вы писали:

SS>Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса).

SS>Необходимо подобрать наилучшие варианты для плохо распознанных.
SS>Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.

Программа AfterScan (http://www.afterscan.com) — русская и довольно рулезная.
Делает именно то.
Перекуём баги на фичи!
Re: Распознавание строк
От: Курилка Россия http://kirya.narod.ru/
Дата: 19.04.02 09:42
Оценка:
Здравствуйте Sviatoslav Sviridov, Вы писали:

SS>Доброго времени суток!


SS>Задачка такая:

SS>Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса).
SS>Необходимо подобрать наилучшие варианты для плохо распознанных.
SS>Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.

SS>Буду благодарен за любые комментарии либо ссылки.


По-моему суть задачи сводится к написанию функции "схожести" двух строк, тогда надо выбирать из всех наиболее похожие (с наименьшей дистанцией), а это можно доверить юзеру, тут вот есть кое-что интересное, поищи на вебе, что-нибудь натипа про "function similarity between two strings c++", ещё наверно накопаешь алгоритмов.
Re[2]: Распознавание строк
От: Sergey Россия  
Дата: 19.04.02 10:05
Оценка:
Здравствуйте Курилка, Вы писали:

К>Здравствуйте Sviatoslav Sviridov, Вы писали:


SS>>Доброго времени суток!


SS>>Задачка такая:

SS>>Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса).
SS>>Необходимо подобрать наилучшие варианты для плохо распознанных.
SS>>Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.

SS>>Буду благодарен за любые комментарии либо ссылки.


К>По-моему суть задачи сводится к написанию функции "схожести" двух строк, тогда надо выбирать из всех наиболее похожие (с наименьшей дистанцией), а это можно доверить юзеру, тут вот есть кое-что интересное,


Насколько я понял, это тут совершенно ни к чему, у него же символы не теряются и новые не вставляются.

поищи на вебе, что-нибудь натипа про "function similarity between two strings c++", ещё наверно накопаешь алгоритмов.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
Re[3]: Распознавание строк
От: Курилка Россия http://kirya.narod.ru/
Дата: 19.04.02 10:26
Оценка:
Здравствуйте Sergey, Вы писали:


S>Насколько я понял, это тут совершенно ни к чему, у него же символы не теряются и новые не вставляются.


Ну это ещё бабка надвое сказала — ты видел хоть разок результаты сканирования?
Там может из 2 букв одна получиться или наоборот...
Другое дело, что это менее вероятно, чем то, что отсканируется просто не та буква.
Т.е. тут, так сказать, подход более общий.
И это была лишь мысль наводящая, а не готовое решение.
Re[4]: Распознавание строк
От: Sviatoslav Sviridov  
Дата: 19.04.02 10:36
Оценка:
Здравствуйте Курилка, Вы писали:

К>Здравствуйте Sergey, Вы писали:



S>>Насколько я понял, это тут совершенно ни к чему, у него же символы не теряются и новые не вставляются.


К>Ну это ещё бабка надвое сказала — ты видел хоть разок результаты сканирования?

К>Там может из 2 букв одна получиться или наоборот...
К>Другое дело, что это менее вероятно, чем то, что отсканируется просто не та буква.
К>Т.е. тут, так сказать, подход более общий.
К>И это была лишь мысль наводящая, а не готовое решение.

Совершенно верно, это будет полезно... буквы могут и пропадать, и добавляться... спасибо за наводку
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.