Есть ли способ выполнить подсчет слов столбца в Python при фильтрации нежелательных слов? - PullRequest
0 голосов
/ 15 марта 2020

Идея состоит в том, чтобы подсчитать каждый отдельный мир в столбце, но проблема в том, что у меня есть такие слова, как «и», «или», «к», «the» и т. Д. c над значимыми словами. Есть ли способ, которым я могу отфильтровать его?

Пока я здесь:

JobsADS = pd.read_csv (r'C:\...\monster_com-job_sample.csv')
job_description = JobsADS['job_description']
JobsADS.job_description.str.split(expand=True).stack().value_counts()
JobsADS.job_description.str.split(expand=True).stack().value_counts()
Out[14]: 
and                               435368
to                                239437
the                               194229
of                                176424
in                                126946
a                                 125984
with                               95454
for                                91456
is                                 60683
or                                 60657
as                                 50879
be                                 41531
are                                35433
on                                 34621
work                               33693
an                                 31349
will                               30128
by                                 29714
experience                         29031
our                                28916
all                                28459
...
mechanical/                            1
•Machines                              1
Moppet                                 1
unlinked,                              1
skills.-Proven                         1
advice.Assist                          1
DNCS,                                  1
reports.Apply                          1
partner-level                          1
CSmith@platinumhrm.comSubject:         1
plus.Requires                          1
implementationMust                     1
95123Job                               1
FULL-SERVICE                           1
calculation.Analyzing                  1
800-53).                               1
requirements.Monitors                  1
(ADR)                                  1
Smartsheets                            1
quality•Print,                         1
Monticello,                            1
workforce.Warehouse                    1
DescriptionSummary:The                 1
...