(Начинающий) НЛП: я пытаюсь понять, как я могу классифицировать слова в тексте, чтобы идентифицировать все слова, относящиеся к теме - PullRequest
0 голосов
/ 04 февраля 2019

Я очистил веб-сайт с помощью BeautifulSoup, и теперь я хочу проанализировать весь текст, который я очистил, и создать длинный список продуктов, которые встречаются в этом фрагменте текста.

Пример текста

Если вы вегетарианец и постоянно сетуете на то, что у вас не может быть wontons, эти ребятадля тебя!Начинка производится из простой смеси твердых тофу, приправленных солью, имбирем, белым перцем и зеленым луком.Это супер просто, но так приятно.Убедитесь, что вы хорошо слили тофу и высушите его как можно больше, чтобы начинка не была слишком влажной.Вы даже можете сделать шаг вперед и дать ему толчок: выровняйте тарелку с бумажными полотенцами, положите несколько бумажных полотенец сверху и утрамбуйте тофу другой тарелкой.Лучшая вещь об этих wontons - то, что начинка полностью приготовлена, таким образом, Вы можете приспособить приправу, просто дегустируя.Просто убедитесь, что начинка немного более соленая, чем вы бы ее получали, если бы вы просто ели ее самостоятельно.Обертки от Wonton не слишком приправлены.Эти парни готовят в одно мгновение, потому что все, что ты делаешь, это готовит обертки wonton.Как только вы засовываете их в кипящую воду и они всплывают наверх, все готово.Дайте им бросок в соусе с пряным соевым уксусом, и вы на небесах!

Я хотел бы составить длинный список из этого, который идентифицирует: wontons, тофу, уксус,белый перец, лук, соль

Я не уверен, как я могу это сделать, не имея заранее существующего списка продуктов питания.Поэтому любые предложения будут отличными.Ищите что-то, что может сделать это автоматически без слишком большого ручного вмешательства!(Я совершенно новичок в НЛП и глубоком изучении, поэтому любые статьи / методы, которые вы рекомендуете, были бы очень полезны!)

Спасибо!

1 Ответ

0 голосов
/ 18 февраля 2019

Если вы новичок в этом поле, вы можете использовать GENSIM, бесплатную библиотеку python для моделирования тем. Вы можете извлекать продукты с помощью скрытого семантического анализа или запросов сходства.

https://radimrehurek.com/gensim/index.html
...