Частота слов в тексте

Есть довольно большой текст — более 400 000 слов. Где-то 14 000 уникальных слов.

Нужно

1. Составить список наиболее встречаемых слов — имеем частоту по словам. Это в принципе просто

2. Составить список наиболее встречаемых пар слов.

3. Составить список наиболее встречаемых три слова как фраза. Это усложнение пункта 2

4. Составить список наиболее встречаемых пар слов разделенных другим словом. Например, наиболее часто встречается 345 раз — "I <some word> you"

Нужны прежде всего эффективные алгоритмы, а не простой перебор.

Куда копать?

	От:	Andriy Melnyk
	Дата:	05.10.09 16:42
	Оценка: