Есть довольно большой текст — более 400 000 слов. Где-то 14 000 уникальных слов.
Нужно
1. Составить список наиболее встречаемых слов — имеем частоту по словам. Это в принципе просто
2. Составить список наиболее встречаемых
пар слов.
3. Составить список наиболее встречаемых
три слова как фраза. Это усложнение пункта 2
4. Составить список наиболее встречаемых
пар слов разделенных другим словом. Например, наиболее часто встречается 345 раз — "I <some word> you"
Нужны прежде всего эффективные алгоритмы, а не простой перебор.
Куда копать?