Аннотация:
Статья посвящена проблеме потокового извлечения данных из документов полужесткой структуры. В работе кратко рассматривается возможный подход к описанию документов переменной структуры и подробно описывается алгоритм автоматического поиска опорных элементов по пользовательской разметке извлекаемых данных, а так же метод и результаты оценки его эффективности. Описанный подход показал свою эффективность на реальных платежных документах ряда немецких поставщиков: 89,3% счетов могут быть обработаны без ошибок при минимальном участии пользователя.