Идея состоит в том, чтобы подсчитать каждый отдельный мир в столбце, но проблема в том, что у меня есть такие слова, как «и», «или», «к», «the» и т. Д. c над значимыми словами. Есть ли способ, которым я могу отфильтровать его?
Пока я здесь:
JobsADS = pd.read_csv (r'C:\...\monster_com-job_sample.csv')
job_description = JobsADS['job_description']
JobsADS.job_description.str.split(expand=True).stack().value_counts()
JobsADS.job_description.str.split(expand=True).stack().value_counts()
Out[14]:
and 435368
to 239437
the 194229
of 176424
in 126946
a 125984
with 95454
for 91456
is 60683
or 60657
as 50879
be 41531
are 35433
on 34621
work 33693
an 31349
will 30128
by 29714
experience 29031
our 28916
all 28459
...
mechanical/ 1
•Machines 1
Moppet 1
unlinked, 1
skills.-Proven 1
advice.Assist 1
DNCS, 1
reports.Apply 1
partner-level 1
CSmith@platinumhrm.comSubject: 1
plus.Requires 1
implementationMust 1
95123Job 1
FULL-SERVICE 1
calculation.Analyzing 1
800-53). 1
requirements.Monitors 1
(ADR) 1
Smartsheets 1
quality•Print, 1
Monticello, 1
workforce.Warehouse 1
DescriptionSummary:The 1