я совсем не в теме, и посему не смогу правильно сходу изложить мысль, так что не обессудьте.
в общем, нужна либа, которая на вход получает предложения русского/английского языка, и выдает машинное представление(наверное, в виде дерева), из которого можно понять, какое слово глагол/прилагательное/существительное, отношения между словами, етц...
как это направление вообще называется?
какие либы для этого существуют? кто, какие использовал?
спасибо.
пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)
Здравствуйте, niXman, Вы писали:
X>в общем, нужна либа, которая на вход получает предложения русского/английского языка, и выдает машинное представление(наверное, в виде дерева), из которого можно понять, какое слово глагол/прилагательное/существительное, отношения между словами, етц...
Это называется синтаксический разбор. Хороших алгоритмов нет ни у кого. Вообще ни у кого.
Естественный язык неоднозначен и никто не знает, что с этим делать.
"Он её встретил на поляне с цветами". Сделай разбор этой фразы естественным интеллектом.
Здравствуйте, alpha21264, Вы писали:
A>Это называется синтаксический разбор.
ок.
A>Хороших алгоритмов нет ни у кого. Вообще ни у кого.
а какие есть? ну хоть какие-то должны же быть. наверняка даже в опенсорсе...
A>Естественный язык неоднозначен и никто не знает, что с этим делать.
та понятно.
A>"Он её встретил на поляне с цветами". Сделай разбор этой фразы естественным интеллектом.
если алгоритм сможет мне уверено разобрать хотя бы "Он её встретил на поляне" — это уже супер!
есть же всякие переводчики, проверялки, итд... должны же быть и либы.
пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)
Здравствуйте, niXman, Вы писали:
X>как это направление вообще называется?
Natural Language Processing
X>какие либы для этого существуют? кто, какие использовал?
alpha21264 как-то пессимистически состояние дел в этой области охарактеризовал. На мой взгляд, NLP, как одно из направлений AI, сейчас развивается, например неонки в виде нейросетей пытаются внутрь ставить. Но я ненастоящий сварщик, могу ошибаться.
для русского языка чтобы было бесплатно и с открытыми исходниками, то наверное только
aot.ru
nlpub.ru/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0
но все это такая партизанщина, не сравнить с закрытыми библиотеками Яндекса, ABBYY, в русской локализации Microsoft Office и вообще с любыми коммерческими решениями
Здравствуйте, tehKosh, Вы писали:
K>но все это такая партизанщина, не сравнить с закрытыми библиотеками Яндекса, ABBYY, в русской локализации Microsoft Office и вообще с любыми коммерческими решениями
Microsoft Office это скорее из разряда приколов, когда они захотели создать свою проверку орфографии вместо того, чтобы продолжать использовать ОРФО. Как Microsoft решили «сэкономить» на проверке правописания. А про остальных не знаю, но тоже есть сомнения.
Здравствуйте, niXman, Вы писали:
X>какие либы для этого существуют? кто, какие использовал?
Только-только новость про spaCy пробегала. Но я не пробовал.
P.S. Если что-то найдёшь для русского языка — скажи, пожалуйста. Мне в перспективе тоже понадобится.
Здравствуйте, niXman, Вы писали:
X>вчера на сайте CoreNLP, пока бродил, натыкался на раздел с разными дополнениями, и там видел поддержку русского. сейчас уже найти не могу %)
По ссылкам Гугла походит и обнаружил разные агрегаторы ссылок с русским: здесь, здесь.
Надо долго в них разбираться.
Здравствуйте, niXman, Вы писали:
X>привет!
X>я совсем не в теме, и посему не смогу правильно сходу изложить мысль, так что не обессудьте.
X>в общем, нужна либа, которая на вход получает предложения русского/английского языка, и выдает машинное представление(наверное, в виде дерева), из которого можно понять, какое слово глагол/прилагательное/существительное, отношения между словами, етц...
Кстати, а чего ты хочешь?
Методы работы с русским и с английским языком должны отличаться радикально.
Попытки натянуть английские методы кончатся глубким разочарованием.
– Analyzing Text with the Natural Language Toolkit
Steven Bird, Ewan Klein, and Edward Loper
This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.)
0. Preface
1. Language Processing and Python
2. Accessing Text Corpora and Lexical Resources
3. Processing Raw Text
4. Writing Structured Programs
5. Categorizing and Tagging Words (minor fixes still required)
6. Learning to Classify Text
7. Extracting Information from Text
8. Analyzing Sentence Structure
9. Building Feature Based Grammars
10. Analyzing the Meaning of Sentences (minor fixes still required)
11. Managing Linguistic Data (minor fixes still required)
12. Afterword: Facing the Language Challenge
Bibliography
Хочешь быть счастливым — будь им!
Без булдырабыз!!!
Здравствуйте, alpha21264, Вы писали:
A>Методы работы с русским и с английским языком должны отличаться радикально.
думаю — нет.
существительные/прилагательные/глаголы, думаю, есть ов всех языках.
CoreNLP, к примеру — язык пофег. просто загружаешь нужную БД с правилами для конкретного языка.
пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)
Здравствуйте, niXman, Вы писали:
X>Здравствуйте, alpha21264, Вы писали:
A>>Методы работы с русским и с английским языком должны отличаться радикально. X>думаю — нет. X>существительные/прилагательные/глаголы, думаю, есть ов всех языках.
Ага. Как раз в английском и нет. open — это какая часть речи? Вот ыменно.
X>CoreNLP, к примеру — язык пофег. просто загружаешь нужную БД с правилами для конкретного языка.
Здравствуйте, alpha21264, Вы писали:
A>Ага. Как раз в английском и нет. open — это какая часть речи? Вот ыменно.
CoreNLP отлично с этим справляется. и даже с гораздо более сложными случаями.
A>Ага. И получаешь полную фигню в половине случаев.
значит ты проверил, раз утверждаешь?
потому что я проверил, и все даже лучше чем я думал после прочтения доки.
спасибо за помощь.
пачка бумаги А4 стОит 2000 р, в ней 500 листов. получается, лист обычной бумаги стОит дороже имперского рубля =)
Здравствуйте, niXman, Вы писали:
X>Здравствуйте, alpha21264, Вы писали:
A>>Ага. Как раз в английском и нет. open — это какая часть речи? Вот ыменно. X>CoreNLP отлично с этим справляется. и даже с гораздо более сложными случаями.
Отлично — это сколько процентов?
A>>Ага. И получаешь полную фигню в половине случаев. X>значит ты проверил, раз утверждаешь? X>потому что я проверил, и все даже лучше чем я думал после прочтения доки.
Результаты проверки в студию.
PS.
Разумеется, я сужу по коммерческим машинным переводчикам типа Гугла и Промта.
С пониманием структуры фразы у них большие проблемы что в русском, что в английском.