Здравствуйте, Кондор, Вы писали:
К>Здравствуйте, jhng, Вы писали:
J>>ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
К>И того и другого и побольше
...
К>Но больше, конечно классификаци.
Допустим есть некоторый набор текстов, разбитых на группы и куча не обработанных. Нужен алгоритм (ну или почитать про то, как они разрабатываются; пример алгоритма...)
К>Особенно интересен пример по калссификации новостей на порталах.
К>Я, конечно, и сам найду, но если профессионалы подскажут классику в этом "жанре" в виде публикаций или готовых реализаций — будет супер.
Для новостей, думаю, стоит выделить такие данные, как
— имена собственные
— места
— даты
— редкие слова
, составить из них множество. Свести задачу к задаче кластеризации этих множеств, для которой есть много вариантов решения.