Апострофы превращаются в правильный текст? - PullRequest
1 голос
/ 12 января 2011

Цель: я должен быть в состоянии преобразовать апострофы в правильно сформированные слова. - по крайней мере, для самых распространенных слов с апострофами. Для этого в идеале я бы хотел список слов и их подразумеваемых компонентов (то есть «не» и «не»).

Проблема: я создаю алгоритм поиска, основанный на обработке естественного языка, но когда пользователи создают контент (или ищут), используя апостроф, это вызывает у нас проблемы. Главным образом потому, что если бы мы просто удалили апостроф, мы получили бы (не -> не) (не -> не делает), который официально не является английским словом и не может быть переведен системой НЛП.

Идеальное решение - это просто однозначное сопоставление того, во что должны быть преобразованы эти элементы, но я не знаю такого списка.

Пожалуйста, дайте мне знать, если вы знаете один, и где я мог бы найти его.

ТНХ

Ответы [ 2 ]

3 голосов
/ 12 января 2011

Это выглядит как довольно хороший список: http://www.textfixer.com/resources/english-contractions-list.php

Зависит от того, насколько хорошо вы хотите сделать свою систему. Будет ли он понимать, что «собираешься» «собирается» и «должен» ... ну, это сложный вопрос. Это может означать «получил» («должен», «должен») или «получил» («иметь»).

О, вещи, которые мы изучаем, когда пытаемся научить наши компьютеры общаться.

0 голосов
/ 12 января 2011

Эти слова называются "сокращения", и вы можете найти список в Интернете, например, http://en.wikipedia.org/wiki/Contraction_(grammar)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...