Частота слов в тексте
От: Andriy Melnyk Украина  
Дата: 05.10.09 16:42
Оценка:
Есть довольно большой текст — более 400 000 слов. Где-то 14 000 уникальных слов.

Нужно

1. Составить список наиболее встречаемых слов — имеем частоту по словам. Это в принципе просто
2. Составить список наиболее встречаемых пар слов.
3. Составить список наиболее встречаемых три слова как фраза. Это усложнение пункта 2
4. Составить список наиболее встречаемых пар слов разделенных другим словом. Например, наиболее часто встречается 345 раз — "I <some word> you"

Нужны прежде всего эффективные алгоритмы, а не простой перебор.

Куда копать?
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.