Question

Я пытаюсь провести некоторый анализ текста, с ключевым намерением взять слова ниже в этом data.frame, но комбинируя слова с похожими корнями:

+-------------+------+
|    word     | freq |
+-------------+------+
| best        |  897 |
| see         |  768 |
| received    |  701 |
| questions   |  686 |
| contact     |  663 |
| use         |  659 |
| seat        |  643 |
| information |  640 |
| shipping    |  617 |
| help        |  589 |
| want        |  577 |
| discount    |  549 |
| purchase    |  545 |
| code        |  528 |
| team        |  524 |
| sale        |  503 |
| unsubscribe |  460 |
| website     |  426 |
| love        |  414 |
| buy         |  399 |
| ’m          |  394 |
| furniture   |  388 |
| return      |  387 |
| privacy     |  385 |
| looking     |  383 |
| customer    |  382 |
| receive     |  380 |
| fabric      |  375 |
| interested  |  370 |
| delivery    |  348 |
| intended    |  322 |
| ship        |  322 |
| financing   |  314 |
| •           |  314 |
+-------------+------+

Лучший пример - received и receive.Я бы хотел, чтобы конечный результат выглядел следующим образом:

+----------+------+
|   word   | freq |
+----------+------+
| best     |  897 |
| see      |  768 |
| received | 1081 |
+----------+------+

Итак, received и receive и их частота суммируются как единое целое.Кроме того, как я могу очистить записи, такие как ’m и •?

JBGruber · Answer 1 · 01 марта 2019

Лично я бы предложил вам использовать другой лемматизатор.Например, тот, который предоставлен spaCy, который можно использовать в R, например, используя spacyr:

# install.packages("spacyr")
library("spacyr")
# install spacy if running for first time
# spacy_install()
spacy_initialize()
spacy_parse("received and receive")

  doc_id sentence_id token_id    token   lemma   pos entity
1  text1           1        1 received receive  VERB       
2  text1           1        2      and     and CCONJ       
3  text1           1        3  receive receive  VERB

Лемматизировать слова не работают должным образом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лемматизировать слова не работают должным образом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы