Один знакомый мужик написал программку, которая позволяет работать с потрясающим объёмом текстовых документов. Принцип каталогизации — семантический анализ текста.. возможно, я не правильно выражаюсь.. короче, на выходе мы получаем дерево каталогов, сформированное на основе терминов (слов, фраз), используемых в тексте документов. При этом один документ может попасть в несколько веток.. к примеру, описание автомобиля может быть в разделах "авто", "техника", "новости" и "как стать самым крутым самцом на свете".
Вот ссылка:
www.pcbirs.ru, может быть сможете отыскать что-нибудь полезное..