Цель: я должен быть в состоянии преобразовать апострофы в правильно сформированные слова. - по крайней мере, для самых распространенных слов с апострофами. Для этого в идеале я бы хотел список слов и их подразумеваемых компонентов (то есть «не» и «не»).
Проблема: я создаю алгоритм поиска, основанный на обработке естественного языка, но когда пользователи создают контент (или ищут), используя апостроф, это вызывает у нас проблемы. Главным образом потому, что если бы мы просто удалили апостроф, мы получили бы (не -> не) (не -> не делает), который официально не является английским словом и не может быть переведен системой НЛП.
Идеальное решение - это просто однозначное сопоставление того, во что должны быть преобразованы эти элементы, но я не знаю такого списка.
Пожалуйста, дайте мне знать, если вы знаете один, и где я мог бы найти его.
ТНХ