Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
Ну, как в логике предикатов есть функции, которые каждому высказыванию приписывают значение "истина" или "ложь" (эти функции и называются предикатами), так можно вычислять вежливость предложений и сообщений в целом.
Дальше, сделать в сообщении возможность просмотра такого автоматического анализа (там же можно предупреждать о нарушении закона о мате), и на основании оценок сообщений корректировать рейтинг участника форума.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
Не могу не отметить ваш необычайно проницательный ум! Ваше предложение очень ценно! Я уверен, оно значительно улучшит качество общения на форуме!
Нет такой подлости и мерзости, на которую бы не пошёл gcc ради бессмысленных 5% скорости в никому не нужном синтетическом тесте
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
Распарсить вряд ли, эта задачка скорее для нейросетки.
Здравствуйте, T4r4sB, Вы писали:
TB>Не могу не отметить ваш необычайно проницательный ум! Ваше предложение очень ценно! Я уверен, оно значительно улучшит качество общения на форуме!
Данное утверждение:
Не могу не отметить ваш необычайно проницательный ум! Ваше предложение очень ценно! Я уверен, оно значительно улучшит качество общения на форуме!
с большой вероятностью является сарказмом или иронией.
Вот почему:
Фразы типа "необычайно проницательный ум", "очень ценно", "значительно улучшит" в контексте форумов (особенно технических или спорных) часто используются для того, чтобы сказать прямо противоположное — то есть подчеркнуть абсурдность или нелепость предложения.
На RSDN (и подобных ресурсах) сарказм и ирония — очень распространённый стиль общения, особенно в спорных или эмоциональных темах.
Если бы это была искренняя похвала, скорее всего, формулировки были бы более сдержанными и конкретными.
Вывод: Скорее всего, автор имел в виду, что предложение глупое или бесполезное, но выразил это в форме гиперболической похвалы.
Если хотите уточнить, посмотрите на контекст обсуждения — если тема спорная или предложение действительно странное, то сарказм почти гарантирован.
Нейросеть может дать оценку. Не ясно, насколько надо оценивать именно вежливость, да.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
Вежливостью можно считать употребление определённых слов и неупотребление других определённых слов.
Составляем список слов в виде таблички [код, слово, вес (целое со знаком)], положительные так или иначе вежливы.
Остальные слова нейтральны, их вес ноль.
Разбиваем сообщение на слова.
Считаем метрики:
— общее количество слов
— слов с положительным рейтингом
— слов с отрицательным рейтингом
— рейтинг положительных
— рейтинг отрицательных
— общий рейтинг сообщения
Натравливаем алгоритм на БД сообщений РСДН. Корректируем список слов и рейтинг слов, повторяем до просветления.
Это уже должно помочь модерированию по вежливости.
Кроме вывода метрик (например, под панелью оценок), сообщения можно красить спанами, выделяя слова с тем или иным весом.
В русском классическом считается, что обращение "на вы" более вежливое, чем "на ты". От простого разбиения на слова можно перейти к более сложному анализу суффиксов и приставок, выделения корней слов. Все эти "подскажи[те]", "пройди[те]". Тут сложность определения вежливости кмк должна возрасти в геометрической прогрессии.
Отдельно есть проблема подмены похожих по виду символов и запикивания букв непохожими, все эти "x..", "сuк@" и "пи%%%а". Её, кнчн, можно пробовать отбивать на этапе разбиения сообщений на слова. Но это будет уже не просто порезать сообщение пробелами и пробельными сиволами.
Можно от анализа слов перейти к анализу наличия вариантов с помощью regexp (таблица вида [код, regexp, вес (целое со знаком)]). Каждый regexp натравливать на сообщение целиком, что позволит учесть взаимное положение ключевых слов с вариантами запикивания, суффиксами-приставками. Отдельно можно добавить колонку сложности регэкспа, чтобы применять их не все сверху вниз, а по какому то порядку от простого к сложному.
Например, слова не позволят, а регэкспы позволят анализировать такие сущности, как начало предложений с прописной и завершение точкой.
Превращать каждый регэксп в отдельную метрику не хотелось бы, но их можно группировать в метрики и считать веса группы регэкспов.
Вариант со словами позволит подробнее оценить предметную область, частоту употребления слов, важность, вежливость. К этому можно привязать оценки форумчан и действия модераторов, если они есть, и учитывать их в анализе.
Вариант с регэкспами более хитёр и позволит выявлять больше случаев вежливости, но ему нужна база, которую может дать вариант со словами. Регэкспы сочинять чуть более сложнее, чем составить список слов.
ЭФ>и на основании оценок сообщений корректировать рейтинг участника форума.
Зачем? Больше рейтингов, хороших и разных. Чтобы никто не ушёл довольным.
Здравствуйте, Nuzhny, Вы писали:
N>Нейросеть может дать оценку.
А промт был "нет ли тут сарказма"? Это как вопрос на тройку "а не вольтметром ли измеряется напряжение"
>Не ясно, насколько надо оценивать именно вежливость, да.
И не приведет ли это к игре "кто красивее обосрет оппонента". Тут гуманитарии выиграют, технарям придется туго. А это технарский форум. Короче я настроен отрицательно.
Нет такой подлости и мерзости, на которую бы не пошёл gcc ради бессмысленных 5% скорости в никому не нужном синтетическом тесте
Здравствуйте, akasoft, Вы писали:
A>Считаем метрики: A>- общее количество слов A>- слов с положительным рейтингом A>- слов с отрицательным рейтингом A>- рейтинг положительных A>- рейтинг отрицательных A>- общий рейтинг сообщения
Это в целом пройденный этап, чем-то похожим боролись со спамом на заре интернета. Оно обходится легко.
Например, перенасытить оскорбление вежливыми словами: "Спешу Вам сообщить, что Вы, милостивый государь, козлина!"
Ты уже написал, но повторюсь, что потом пойдут в ход специальные опечатки, замена одних символом другими и т.д.: "Ах, ты $uka!"
И чем дальше, тем более сложные метрики и правила придётся придумывать.
A>В русском классическом считается, что обращение "на вы" более вежливое, чем "на ты".
А в сети (нетикете) долгое время считалось, что все равны и все на "ты". Переход на "Вы" воспринимался, как начало оскорблений.
Короче, как в антиспамах, так и тут всё равно приходят к машинному обучению. Так почему бы с этого и не начать? Тем более, что для классификации/ранжирования ответа нужна лёгкая нейросеть. И таких нейросетей уже наделали множество, соцсети заставляют заменять кожаных модераторов на автоматических.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
Одного сообщения? Бессмысленно, в отрыве от всей предыдущей цепочки реплик. В некоторых случаях бессмысленно без реплик в других темах.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
ЭФ>Ну, как в логике предикатов есть функции, которые каждому высказыванию приписывают значение "истина" или "ложь" (эти функции и называются предикатами), так можно вычислять вежливость предложений и сообщений в целом.
ЭФ>Дальше, сделать в сообщении возможность просмотра такого автоматического анализа (там же можно предупреждать о нарушении закона о мате), и на основании оценок сообщений корректировать рейтинг участника форума.
Такие вещи решаются только нейросетями, потому что любой твой парсинг и семантический и морфологический анализ житрожопые товарищи легко обойдут
Здравствуйте, Nuzhny, Вы писали:
N>А в сети (нетикете) долгое время считалось, что все равны и все на "ты". Переход на "Вы" воспринимался, как начало оскорблений.
С этим вообще беда: в вк пабликах многие когда не тянут по фактам, то съезжают на "а Вы мне не тыкайте".
Нет такой подлости и мерзости, на которую бы не пошёл gcc ради бессмысленных 5% скорости в никому не нужном синтетическом тесте
Некое сообщение либо само-по-себе (начало темы), либо является ответом на другое сообщение.
Если есть два сообщения (ответ, и цитируемое), то там есть два автора.
Можно проанализировать совместную переписку этих двух авторов и выявить их отношение друг к другу.
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
Можно уже сейчас. Алиса так умеет, и она умеет делать это очень хорошо! Она и вежливость умеет оценивать, и степень сарказма. Она больше умеет. По твоим сообщениям может оценить твой тип характера, например, склонен ли ты к сухим теоретическим рассуждениям, или тебя больше интересует практический результат. Насколько ты держишь тему разговора, или уплываешь и скользишь по второстепенным темам. Какие речевые паттерны используешь — их еще называют "фокусами языка". Только нужно иметь соответствующую подготовку, владеть научной терминологией, чтобы уметь спросить Алису и уметь понять ее ответ.
Вообще, я тут поражен способностью ИИ-ассистентов. Нет, манны небесной от них не жду, но они уже сейчас умеют очень многое. К чему это приведет — пока не ясно. Могут найтись люди, которые ухудшат нам всем жизнь через ИИ-ассистентов, но где-то будет лучше, где-то хуже. Это как с компьютерами. Интернет дает богатство знаний, компьютеры позволяют повысить уровень безопасности, но и позволяют более сильно закабалять людей, ограничивать их свободу. Как говорят, у медали всегда есть оборотная сторона.
Только Алисе придется денег заплатить! Сущая мелочь
Здравствуйте, Эйнсток Файр, Вы писали:
ЭФ>Можно ли так распарсить русский текст, чтобы ему можно было дать оценку, пропорциональную вежливости сообщения?
ЭФ>Ну, как в логике предикатов есть функции, которые каждому высказыванию приписывают значение "истина" или "ложь" (эти функции и называются предикатами), так можно вычислять вежливость предложений и сообщений в целом.
ЭФ>Дальше, сделать в сообщении возможность просмотра такого автоматического анализа (там же можно предупреждать о нарушении закона о мате), и на основании оценок сообщений корректировать рейтинг участника форума.