У нас есть история разговоров между людьми (любой язык, любой словарь), поэтому с большим количеством орфографических ошибок:
"hellobb do u hav skip?" => "hello baby, do you have skype?"
Перед выполнением задачи глубокого обучения для этого набора данных (найти синонимы и т. Д.) Я бы хотел исправить эти ошибки.
Это хорошая идея? Я никогда не работал с такими плохими качественными данными. Хотите знать, есть ли «волшебное решение» для достижения этой цели?
Иначе я планирую использовать:
- вложение слов (word2vec), чтобы проверить, схожи ли хорошие и плохие слова
- функция расстояния между словами
- если слово A является менее известным словом B, тогда исправить (wordA) = слово B