Здравствуйте!
Подскажите, пожалуйста, наиболее надежные/популярные алгоритмы классификации тесктов. У меня есть набор строк <= 1024 символов, которые нужно разбить на класстеры. Нужно сделать быстро, причем качество может быть далеко не самое хорошее для начала (прототип будет.)
Конечно хорошо бы еще и реализацию в виде библиотеки. Ну или исходников под .NET.
Можно еще и на С++ или Java (придется портировать на .NET...)
Здравствуйте, Кондор, Вы писали:
К>Здравствуйте! К>Подскажите, пожалуйста, наиболее надежные/популярные алгоритмы классификации тесктов. У меня есть набор строк <= 1024 символов, которые нужно разбить на класстеры. Нужно сделать быстро, причем качество может быть далеко не самое хорошее для начала (прототип будет.)
К>Конечно хорошо бы еще и реализацию в виде библиотеки. Ну или исходников под .NET.
К>Можно еще и на С++ или Java (придется портировать на .NET...)
ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
Здравствуйте, jhng, Вы писали:
J>ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
И того и другого и побольше ...
Но больше, конечно классификаци. Допустим есть некоторый набор текстов, разбитых на группы и куча не обработанных. Нужен алгоритм (ну или почитать про то, как они разрабатываются; пример алгоритма...)
Особенно интересен пример по калссификации новостей на порталах.
Я, конечно, и сам найду, но если профессионалы подскажут классику в этом "жанре" в виде публикаций или готовых реализаций — будет супер.
ДДТ!
Re[3]: Алгоритмы классификации текстов.
От:
Аноним
Дата:
07.03.08 16:12
Оценка:
Здравствуйте, Кондор, Вы писали:
К>Здравствуйте, jhng, Вы писали:
J>>ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
К>И того и другого и побольше ... К>Но больше, конечно классификаци. Допустим есть некоторый набор текстов, разбитых на группы и куча не обработанных. Нужен алгоритм (ну или почитать про то, как они разрабатываются; пример алгоритма...) К>Особенно интересен пример по калссификации новостей на порталах.
К>Я, конечно, и сам найду, но если профессионалы подскажут классику в этом "жанре" в виде публикаций или готовых реализаций — будет супер.
Для новостей, думаю, стоит выделить такие данные, как
— имена собственные
— места
— даты
— редкие слова
, составить из них множество. Свести задачу к задаче кластеризации этих множеств, для которой есть много вариантов решения.
Здравствуйте, Аноним, Вы писали:
J>>>ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
К>>И того и другого и побольше ... К>>Но больше, конечно классификаци. Допустим есть некоторый набор текстов, разбитых на группы и куча не обработанных. Нужен алгоритм (ну или почитать про то, как они разрабатываются; пример алгоритма...) К>>Особенно интересен пример по калссификации новостей на порталах.
К>>Я, конечно, и сам найду, но если профессионалы подскажут классику в этом "жанре" в виде публикаций или готовых реализаций — будет супер.
А>Для новостей, думаю, стоит выделить такие данные, как А>- имена собственные А>- места А>- даты А>- редкие слова А>, составить из них множество. Свести задачу к задаче кластеризации этих множеств, для которой есть много вариантов решения.
Боюсь имена собственные врядли сильно могут помочь особенно если это имена известных людей.Например такое имя как Джордж Буш может быть связано и с политикой,и с экономикой и со скандалами.
и что имеется ввиду под классификацией? Topic Detection? Opinion Mining?or?
P.S.Кондор ты получил мое собшение?
Re[5]: Алгоритмы классификации текстов.
От:
Аноним
Дата:
07.03.08 19:08
Оценка:
Здравствуйте, ashg, Вы писали:
A>и что имеется ввиду под классификацией? Topic Detection? Opinion Mining?or?
A>P.S.Кондор ты получил мое собшение?
Topic Detection. Дату самой новости тоже стоит учитывать. Про Джорджа Буша за один день могут опубликовать и скандал, и про политику, и про экономику, и если всё это объединить в один сюжет, ничего плохого с этого не будет... если разделить эти сюжеты не помогут другие "важные слова/словосочетания".
Здравствуйте, Аноним, Вы писали:
A>>и что имеется ввиду под классификацией? Topic Detection? Opinion Mining?or?
A>>P.S.Кондор ты получил мое собшение?
А>Topic Detection. Дату самой новости тоже стоит учитывать. Про Джорджа Буша за один день могут опубликовать и скандал, и про политику, и про экономику, и если всё это объединить в один сюжет, ничего плохого с этого не будет... если разделить эти сюжеты не помогут другие "важные слова/словосочетания".
Сорри я не очень понял что такое "один сюжет"? можете пояснить?
Примеры которые я вижу:
Topic Politics:"Джордж Буш обьявил о вторжении в ирак" и Topic Finances:"В связи со обьявлением Джорджа Буша о вторжении в ирак, цены на нефть..."...
Re[7]: Алгоритмы классификации текстов.
От:
Аноним
Дата:
07.03.08 20:04
Оценка:
Здравствуйте, ashg, Вы писали:
A>Здравствуйте, Аноним, Вы писали:
A>>>и что имеется ввиду под классификацией? Topic Detection? Opinion Mining?or?
A>>>P.S.Кондор ты получил мое собшение?
А>>Topic Detection. Дату самой новости тоже стоит учитывать. Про Джорджа Буша за один день могут опубликовать и скандал, и про политику, и про экономику, и если всё это объединить в один сюжет, ничего плохого с этого не будет... если разделить эти сюжеты не помогут другие "важные слова/словосочетания". A>Сорри я не очень понял что такое "один сюжет"? можете пояснить?
Я тоже не знаю, что это такое.
A>Примеры которые я вижу:
A>Topic Politics:"Джордж Буш обьявил о вторжении в ирак" и Topic Finances:"В связи со обьявлением Джорджа Буша о вторжении в ирак, цены на нефть..."...
В моём алгоритме (на основе фраз "Джордж Буш", "ирак"), это поместится в один сюжет, и ничего плохого в этом не вижу
Здравствуйте, Аноним, Вы писали:
A>>>>и что имеется ввиду под классификацией? Topic Detection? Opinion Mining?or?
A>>>>P.S.Кондор ты получил мое собшение?
А>>>Topic Detection. Дату самой новости тоже стоит учитывать. Про Джорджа Буша за один день могут опубликовать и скандал, и про политику, и про экономику, и если всё это объединить в один сюжет, ничего плохого с этого не будет... если разделить эти сюжеты не помогут другие "важные слова/словосочетания". A>>Сорри я не очень понял что такое "один сюжет"? можете пояснить?
А>Я тоже не знаю, что это такое.
A>>Примеры которые я вижу:
A>>Topic Politics:"Джордж Буш обьявил о вторжении в ирак" и Topic Finances:"В связи со обьявлением Джорджа Буша о вторжении в ирак, цены на нефть..."...
А>В моём алгоритме (на основе фраз "Джордж Буш", "ирак"), это поместится в один сюжет, и ничего плохого в этом не вижу
Дело ваше.Очень даже непонятно чего вы хотите.На мое мнение неконкретно ставите задачу тут. если хотите получить больше информации сформулируйте пожалуйста более конкретно.
Re[4]: Алгоритмы классификации текстов.
От:
Аноним
Дата:
13.03.08 13:30
Оценка:
А>Для новостей, думаю, стоит выделить такие данные, как А>- имена собственные А>- места А>- даты А>- редкие слова А>, составить из них множество. Свести задачу к задаче кластеризации этих множеств, для которой есть много вариантов решения.
А ссылок или название статей с описанием подхода у вас имеются?
Здравствуйте, Кондор, Вы писали:
К>Здравствуйте, jhng, Вы писали:
J>>ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
К>И того и другого и побольше ... К>Но больше, конечно классификаци. Допустим есть некоторый набор текстов, разбитых на группы и куча не обработанных. Нужен алгоритм (ну или почитать про то, как они разрабатываются; пример алгоритма...) К>Особенно интересен пример по калссификации новостей на порталах.
К>Я, конечно, и сам найду, но если профессионалы подскажут классику в этом "жанре" в виде публикаций или готовых реализаций — будет супер.
Если нужно отнести текст к некоторым заранее заданным группам (скажем, политика, IT, светская хроника, сад и огород и.т.д. ) можно попробовать использовать частотный анализ (как это делается в байесовских спам-фильтрах — http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0). Только классифицировать не спам/не спам, а политика/не политика, IT/не IT, и.т.д., то есть это уже такая простая байсовская сеть получается...
Здравствуйте, Кондор, Вы писали:
К>Здравствуйте, jhng, Вы писали:
J>>ээээ... так тебе классификацию или кластеризацию? Все-таки это немного разные вещи
К>И того и другого и побольше ... К>Но больше, конечно классификаци. Допустим есть некоторый набор текстов, разбитых на группы и куча не обработанных. Нужен алгоритм (ну или почитать про то, как они разрабатываются; пример алгоритма...)