Задачка такая:
Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса).
Необходимо подобрать наилучшие варианты для плохо распознанных.
Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.
Здравствуйте Sviatoslav Sviridov, Вы писали:
SS>Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса). SS>Необходимо подобрать наилучшие варианты для плохо распознанных. SS>Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.
Здравствуйте Sviatoslav Sviridov, Вы писали:
SS>Доброго времени суток!
SS>Задачка такая: SS>Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса). SS>Необходимо подобрать наилучшие варианты для плохо распознанных. SS>Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.
SS>Буду благодарен за любые комментарии либо ссылки.
По-моему суть задачи сводится к написанию функции "схожести" двух строк, тогда надо выбирать из всех наиболее похожие (с наименьшей дистанцией), а это можно доверить юзеру, тут вот есть кое-что интересное, поищи на вебе, что-нибудь натипа про "function similarity between two strings c++", ещё наверно накопаешь алгоритмов.
Здравствуйте Курилка, Вы писали:
К>Здравствуйте Sviatoslav Sviridov, Вы писали:
SS>>Доброго времени суток!
SS>>Задачка такая: SS>>Имеется отсканированный текст, причём плохо распознанный, т.е. вмкесто некоторых букв стоят другие похожие символы либо "?". Имеется также база с корректными допустимыми строками (напр., это могут быть адреса). SS>>Необходимо подобрать наилучшие варианты для плохо распознанных. SS>>Либо задачка попроще: для выбранного корректного варианта подобрать похожие из отсканированных.
SS>>Буду благодарен за любые комментарии либо ссылки.
К>По-моему суть задачи сводится к написанию функции "схожести" двух строк, тогда надо выбирать из всех наиболее похожие (с наименьшей дистанцией), а это можно доверить юзеру, тут вот есть кое-что интересное,
Насколько я понял, это тут совершенно ни к чему, у него же символы не теряются и новые не вставляются.
поищи на вебе, что-нибудь натипа про "function similarity between two strings c++", ещё наверно накопаешь алгоритмов.
Одним из 33 полных кавалеров ордена "За заслуги перед Отечеством" является Геннадий Хазанов.
S>Насколько я понял, это тут совершенно ни к чему, у него же символы не теряются и новые не вставляются.
Ну это ещё бабка надвое сказала — ты видел хоть разок результаты сканирования?
Там может из 2 букв одна получиться или наоборот...
Другое дело, что это менее вероятно, чем то, что отсканируется просто не та буква.
Т.е. тут, так сказать, подход более общий.
И это была лишь мысль наводящая, а не готовое решение.
Здравствуйте Курилка, Вы писали:
К>Здравствуйте Sergey, Вы писали:
S>>Насколько я понял, это тут совершенно ни к чему, у него же символы не теряются и новые не вставляются.
К>Ну это ещё бабка надвое сказала — ты видел хоть разок результаты сканирования? К>Там может из 2 букв одна получиться или наоборот... К>Другое дело, что это менее вероятно, чем то, что отсканируется просто не та буква. К>Т.е. тут, так сказать, подход более общий. К>И это была лишь мысль наводящая, а не готовое решение.
Совершенно верно, это будет полезно... буквы могут и пропадать, и добавляться... спасибо за наводку