библиотека для разбора текстов

От:	niXman	https://github.com/niXman
Дата:	20.10.16 12:16
Оценка:

привет!

я совсем не в теме, и посему не смогу правильно сходу изложить мысль, так что не обессудьте.

в общем, нужна либа, которая на вход получает предложения русского/английского языка, и выдает машинное представление(наверное, в виде дерева), из которого можно понять, какое слово глагол/прилагательное/существительное, отношения между словами, етц...

как это направление вообще называется?
какие либы для этого существуют? кто, какие использовал?

спасибо.

пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)

Отредактировано 20.10.2016 12:17 niXman . Предыдущая версия .

Re: библиотека для разбора текстов

	От:	alpha21264
	Дата:	20.10.16 12:32
	Оценка:	+1

Здравствуйте, niXman, Вы писали:

X>в общем, нужна либа, которая на вход получает предложения русского/английского языка, и выдает машинное представление(наверное, в виде дерева), из которого можно понять, какое слово глагол/прилагательное/существительное, отношения между словами, етц...

Это называется синтаксический разбор. Хороших алгоритмов нет ни у кого. Вообще ни у кого.
Естественный язык неоднозначен и никто не знает, что с этим делать.

"Он её встретил на поляне с цветами". Сделай разбор этой фразы естественным интеллектом.

Течёт вода Кубань-реки куда велят большевики.

Re[2]: библиотека для разбора текстов

От:	niXman	https://github.com/niXman
Дата:	20.10.16 12:36
Оценка:

Здравствуйте, alpha21264, Вы писали:

A>Это называется синтаксический разбор.
ок.

A>Хороших алгоритмов нет ни у кого. Вообще ни у кого.
а какие есть? ну хоть какие-то должны же быть. наверняка даже в опенсорсе...

A>Естественный язык неоднозначен и никто не знает, что с этим делать.
та понятно.

A>"Он её встретил на поляне с цветами". Сделай разбор этой фразы естественным интеллектом.
если алгоритм сможет мне уверено разобрать хотя бы "Он её встретил на поляне" — это уже супер!

есть же всякие переводчики, проверялки, итд... должны же быть и либы.

пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)

Re[3]: библиотека для разбора текстов

	От:	Evgeniy Skvortsov
	Дата:	20.10.16 14:04
	Оценка:

Здравствуйте, niXman, Вы писали:

X>есть же всякие переводчики, проверялки, итд... должны же быть и либы.

Есть, но качество у них так себе. Машинный перевод до сих достаточно кривой.
А проверялка в ворде постоянно гонит пургу на разборе предложений.

Re: библиотека для разбора текстов

	От:	PM
	Дата:	20.10.16 14:07
	Оценка:	+1

Здравствуйте, niXman, Вы писали:

X>как это направление вообще называется?

Natural Language Processing

X>какие либы для этого существуют? кто, какие использовал?

alpha21264 как-то пессимистически состояние дел в этой области охарактеризовал. На мой взгляд, NLP, как одно из направлений AI, сейчас развивается, например неонки в виде нейросетей пытаются внутрь ставить. Но я ненастоящий сварщик, могу ошибаться.

А так знакомство с NLP начать можно с одного из awesome lists, скажем https://github.com/keonkim/awesome-nlp

Re: библиотека для разбора текстов

От:	niXman	https://github.com/niXman
Дата:	20.10.16 14:12
Оценка:

пока-что нагуглилось такое:
http://stanfordnlp.github.io/CoreNLP/index.html
http://www.nltk.org/
https://opennlp.apache.org/documentation.html
https://opensource.com/business/15/7/five-open-source-nlp-tools

пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)

Re[2]: библиотека для разбора текстов

	От:	tehKosh
	Дата:	20.10.16 22:21
	Оценка:

для русского языка чтобы было бесплатно и с открытыми исходниками, то наверное только
aot.ru
nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0
но все это такая партизанщина, не сравнить с закрытыми библиотеками Яндекса, ABBYY, в русской локализации Microsoft Office и вообще с любыми коммерческими решениями

Re[3]: библиотека для разбора текстов

	От:	tehKosh
	Дата:	20.10.16 22:37
	Оценка:

у яндекса есть
tech.yandex.ru/tomita/
tech.yandex.ru/mystem/
у abbyy
ABBYY Compreno

Re[3]: библиотека для разбора текстов

	От:	velkin
	Дата:	21.10.16 02:53
	Оценка:

Здравствуйте, tehKosh, Вы писали:

K>но все это такая партизанщина, не сравнить с закрытыми библиотеками Яндекса, ABBYY, в русской локализации Microsoft Office и вообще с любыми коммерческими решениями

Microsoft Office это скорее из разряда приколов, когда они захотели создать свою проверку орфографии вместо того, чтобы продолжать использовать ОРФО. Как Microsoft решили «сэкономить» на проверке правописания. А про остальных не знаю, но тоже есть сомнения.

Re: библиотека для разбора текстов

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	21.10.16 05:35
Оценка:

Здравствуйте, niXman, Вы писали:

X>какие либы для этого существуют? кто, какие использовал?

Только-только новость про spaCy пробегала. Но я не пробовал.
P.S. Если что-то найдёшь для русского языка — скажи, пожалуйста. Мне в перспективе тоже понадобится.

Re[2]: библиотека для разбора текстов

От:	niXman	https://github.com/niXman
Дата:	21.10.16 09:58
Оценка:

Здравствуйте, Nuzhny, Вы писали:

N>P.S. Если что-то найдёшь для русского языка — скажи, пожалуйста. Мне в перспективе тоже понадобится.

вчера на сайте CoreNLP, пока бродил, натыкался на раздел с разными дополнениями, и там видел поддержку русского. сейчас уже найти не могу %)

пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)

Re[3]: библиотека для разбора текстов

От:	Nuzhny	https://github.com/Nuzhny007
Дата:	21.10.16 10:58
Оценка:	6 (1)

Здравствуйте, niXman, Вы писали:

X>вчера на сайте CoreNLP, пока бродил, натыкался на раздел с разными дополнениями, и там видел поддержку русского. сейчас уже найти не могу %)

По ссылкам Гугла походит и обнаружил разные агрегаторы ссылок с русским: здесь, здесь.
Надо долго в них разбираться.

Re: библиотека для разбора текстов

	От:	alpha21264
	Дата:	24.10.16 10:03
	Оценка:

Здравствуйте, niXman, Вы писали:

X>привет!

X>я совсем не в теме, и посему не смогу правильно сходу изложить мысль, так что не обессудьте.

X>в общем, нужна либа, которая на вход получает предложения русского/английского языка, и выдает машинное представление(наверное, в виде дерева), из которого можно понять, какое слово глагол/прилагательное/существительное, отношения между словами, етц...

Вот тут интересный мужик пробегал:
http://rsdn.org/forum/other/5789079.1
Не совсем то, что ты хочешь. Ну а вдруг?

Кстати, а чего ты хочешь?
Методы работы с русским и с английским языком должны отличаться радикально.
Попытки натянуть английские методы кончатся глубким разочарованием.

Течёт вода Кубань-реки куда велят большевики.

Re[2]: библиотека для разбора текстов

	От:	LaptevVV
	Дата:	24.10.16 11:08
	Оценка:	+1

X>http://www.nltk.org/
Книжка есть: http://www.nltk.org/book/

Natural Language Processing with Python

– Analyzing Text with the Natural Language Toolkit

Steven Bird, Ewan Klein, and Edward Loper
This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.)

0. Preface
1. Language Processing and Python
2. Accessing Text Corpora and Lexical Resources
3. Processing Raw Text
4. Writing Structured Programs
5. Categorizing and Tagging Words (minor fixes still required)
6. Learning to Classify Text
7. Extracting Information from Text
8. Analyzing Sentence Structure
9. Building Feature Based Grammars
10. Analyzing the Meaning of Sentences (minor fixes still required)
11. Managing Linguistic Data (minor fixes still required)
12. Afterword: Facing the Language Challenge
Bibliography

Хочешь быть счастливым — будь им!
Без булдырабыз!!!

Re[2]: библиотека для разбора текстов

От:	niXman	https://github.com/niXman
Дата:	24.10.16 11:46
Оценка:

Здравствуйте, alpha21264, Вы писали:

A>Методы работы с русским и с английским языком должны отличаться радикально.
думаю — нет.
существительные/прилагательные/глаголы, думаю, есть ов всех языках.

CoreNLP, к примеру — язык пофег. просто загружаешь нужную БД с правилами для конкретного языка.

пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)

Re[3]: библиотека для разбора текстов

	От:	alpha21264
	Дата:	24.10.16 15:17
	Оценка:

Здравствуйте, niXman, Вы писали:

X>Здравствуйте, alpha21264, Вы писали:

A>>Методы работы с русским и с английским языком должны отличаться радикально.
X>думаю — нет.
X>существительные/прилагательные/глаголы, думаю, есть ов всех языках.

Ага. Как раз в английском и нет. open — это какая часть речи? Вот ыменно.

X>CoreNLP, к примеру — язык пофег. просто загружаешь нужную БД с правилами для конкретного языка.

Ага. И получаешь полную фигню в половине случаев.

Течёт вода Кубань-реки куда велят большевики.

Re[4]: библиотека для разбора текстов

От:	niXman	https://github.com/niXman
Дата:	24.10.16 16:12
Оценка:

Здравствуйте, alpha21264, Вы писали:

A>Ага. Как раз в английском и нет. open — это какая часть речи? Вот ыменно.
CoreNLP отлично с этим справляется. и даже с гораздо более сложными случаями.

A>Ага. И получаешь полную фигню в половине случаев.
значит ты проверил, раз утверждаешь?
потому что я проверил, и все даже лучше чем я думал после прочтения доки.

спасибо за помощь.

пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)

Re[5]: библиотека для разбора текстов

	От:	alpha21264
	Дата:	25.10.16 11:29
	Оценка:

Здравствуйте, niXman, Вы писали:

X>Здравствуйте, alpha21264, Вы писали:

A>>Ага. Как раз в английском и нет. open — это какая часть речи? Вот ыменно.
X>CoreNLP отлично с этим справляется. и даже с гораздо более сложными случаями.

Отлично — это сколько процентов?

A>>Ага. И получаешь полную фигню в половине случаев.
X>значит ты проверил, раз утверждаешь?
X>потому что я проверил, и все даже лучше чем я думал после прочтения доки.

Результаты проверки в студию.

PS.
Разумеется, я сужу по коммерческим машинным переводчикам типа Гугла и Промта.
С пониманием структуры фразы у них большие проблемы что в русском, что в английском.

Течёт вода Кубань-реки куда велят большевики.

Re[2]: библиотека для разбора текстов

	От:	Кодт
	Дата:	29.10.16 19:02
	Оценка:

Здравствуйте, alpha21264, Вы писали:

A>"Он её встретил на поляне с цветами". Сделай разбор этой фразы естественным интеллектом.

Письма знакомой из Киева не заменят фотографии его любимой и милой дочери Марии.

	Он видел их семью своими глазами

Перекуём баги на фичи!

Re[3]: библиотека для разбора текстов

	От:	Ops
	Дата:	30.10.16 09:34
	Оценка:

Здравствуйте, Кодт, Вы писали:

К>Он видел их семью своими глазами
Сломал мозг в поисках 7-го. Понял, что игры слов таки нет.

	А еще бывают ошибки и опечатки

Переубедить Вас, к сожалению, мне не удастся, поэтому сразу перейду к оскорблениям.

Отредактировано 30.10.2016 9:37 ути-пути . Предыдущая версия .

Переместить
Удалить
Выделить ветку

Пока на собственное сообщение не было ответов, его можно удалить.

Заголовок: