Re: Проверка морфологии русского языка. Определения частей р - Алгоритмы

Необходимо в любом предложенном тексте определить все части речи (сущ, глаг, прич, прил, ...)
Конечно же задача, имхо, глобальных масштабах. Мне главное суть. Т.е. критерии оцерки морфологии. Прочитал одну книжку, но там мало чего есть, т.е. есть очень уж сложно сразу уяснить суть системы. Может быть стоит обратиться в какую-нить компанию по работе с русским языком, которое ПО пишет? В общем жду реальных советов, т.к. решить эту задачу я должен.

Здравствуйте, Vitaly.Kuznetsov, Вы писали:

VK>Необходимо в любом предложенном тексте определить все части речи (сущ, глаг, прич, прил, ...)
VK>Конечно же задача, имхо, глобальных масштабах. Мне главное суть. Т.е. критерии оцерки морфологии. Прочитал одну книжку, но там мало чего есть, т.е. есть очень уж сложно сразу уяснить суть системы. Может быть стоит обратиться в какую-нить компанию по работе с русским языком, которое ПО пишет? В общем жду реальных советов, т.к. решить эту задачу я должен.
Насколько можно судить по литературе, сейчас общепринятым подходом является комбинированный — используется большой морфологический словарь, в котором каждой словоформе сопоставляется ее лемма и все грамматические признаки + для словоформ, отсутствующих в словаре, предпринимается попытка угадать грамматические признаки. Белоногов описывал простой алгоритм для русского языка: в словаре находим все словоформы, у которых максимальная длина суффикса, совпадающего с суффиксом искомой словоформы. Для найденных словоформ строим распределение частот признаков и назначаем наиболее частый признак.
Много интересного можно найти здесь:
http://aot.ru
А вообще — гугл по запросу POS tagging.

Здравствуйте, Programmierer AG, Вы писали:

PA>Насколько можно судить по литературе, сейчас общепринятым подходом является комбинированный — используется большой морфологический словарь, в котором каждой словоформе сопоставляется ее лемма и все грамматические признаки + для словоформ, отсутствующих в словаре, предпринимается попытка угадать грамматические признаки. Белоногов описывал простой алгоритм для русского языка: в словаре находим все словоформы, у которых максимальная длина суффикса, совпадающего с суффиксом искомой словоформы. Для найденных словоформ строим распределение частот признаков и назначаем наиболее частый признак.
PA>Много интересного можно найти здесь:
PA>http://aot.ru
PA>А вообще — гугл по запросу POS tagging.

Спасибо за информацию! Теперь приблизительно понял в каком направлении копать. Наткнулся на линк http://algolist.manual.ru/misc/morfo.php — примитивно, но вроде бы суть ясна

	От:	Vitaly.Kuznetsov
	Дата:	03.07.06 16:56
	Оценка:

	От:	Programmierer AG
	Дата:	04.07.06 07:25
	Оценка:	23 (4) +2

	От:	Vitaly.Kuznetsov
	Дата:	04.07.06 09:34
	Оценка:

	От:	Vitaly.Kuznetsov
	Дата:	10.07.06 11:43
	Оценка: