Какой лучший способ удалить иностранные слова в обзоре для извлечения темы? - PullRequest
2 голосов
/ 08 апреля 2019

Этот вопрос на самом деле состоит из двух частей: необходимо ли удалять иностранные слова и как лучше всего это реализовать.

Я новичок, пытающийся извлечь темы из обзора английской еды, в основном используя скрытое распределение dirchlet в Python. Вывод состоит из 5 тем по 50 слов в каждой, и я использовал NLTK для удаления английских стоп-слов. Но одна (и только одна) тема содержит много иностранных слов, которые могут не иметь значения, например, "de", la "" et "" les ".

Некоторые оригинальные обзоры, содержащие следующие слова:

-A la carte sushi is great. Pot of soup is huge and delicious. -I would be interested in returning to try their Anticuchos, Ceviche de Mixto, Cau Cau, Aji de Gallina, and Chaufa de Camaron. -I recommend patients in the parking lot. I would be lying if I didn't admit its some of the finest que in the country!

Следующий шаг - получить вектор пользователя, вектор предмета и поезд, проверить, проверить результаты.

Значат ли эти слова или они будут удалены?

А как убрать слова?

Один ответ на вопрос ниже предлагает использовать набор английских слов NLKT, но я обнаружил, что набор слов довольно мал, и такие слова, как "de", un ", удалить нельзя.

words = set(nltk.corpus.words.words())
len(words) #235892

Другой метод предполагает зачарование пакета python, но он больше не поддерживается.

Удаление неанглоязычных слов из текста с использованием Python

Результаты темы, которые я получил:

pizza burger cheese de good place crust sauce burgers order et service toppings pizzas like la fresh le thin restaurant un slice best great delivery time pour poutine delicious garlic menu try pepperoni est taste back les sandwich meat food better style fast plus minutes que little pie onion pas

...