Я пытаюсь провести некоторый анализ текста, с ключевым намерением взять слова ниже в этом data.frame
, но комбинируя слова с похожими корнями:
+-------------+------+
| word | freq |
+-------------+------+
| best | 897 |
| see | 768 |
| received | 701 |
| questions | 686 |
| contact | 663 |
| use | 659 |
| seat | 643 |
| information | 640 |
| shipping | 617 |
| help | 589 |
| want | 577 |
| discount | 549 |
| purchase | 545 |
| code | 528 |
| team | 524 |
| sale | 503 |
| unsubscribe | 460 |
| website | 426 |
| love | 414 |
| buy | 399 |
| ’m | 394 |
| furniture | 388 |
| return | 387 |
| privacy | 385 |
| looking | 383 |
| customer | 382 |
| receive | 380 |
| fabric | 375 |
| interested | 370 |
| delivery | 348 |
| intended | 322 |
| ship | 322 |
| financing | 314 |
| • | 314 |
+-------------+------+
Лучший пример - received
и receive
.Я бы хотел, чтобы конечный результат выглядел следующим образом:
+----------+------+
| word | freq |
+----------+------+
| best | 897 |
| see | 768 |
| received | 1081 |
+----------+------+
Итак, received
и receive
и их частота суммируются как единое целое.Кроме того, как я могу очистить записи, такие как ’m
и •
?