Так что это немного, и я прошу прощения за отсутствие информации. Тем не менее, я изо всех сил пытаюсь даже знать, где искать сейчас.
Таким образом, я пытаюсь разделить хорошие и плохие комментарии от вычурного опроса сотрудников случайной компании. Все, что у меня есть, - это датафрейм, состоящий из комментариев, сделанных сотрудником, и идентификационного кода их менеджера. Идея состоит в том, чтобы попытаться увидеть, сколько хороших и / или плохих комментариев связано с менеджером через его идентификатор.
import pandas as pd
trial_text=pd.read_csv("trial.csv")
trial_text.head()
ManagerCode Comment
0 AB123 Great place to work
1 AB123 Need more training
2 AB123 Hate working here
3 AB124 Always late home
4 AB124 Manager never listens
Я довольно часто использовал NLTK для наборов данных, которые содержат гораздо больше информации, поэтому все, что основано на NLTK, не будет проблемой. Как я уже сказал, с тем, что у меня есть, «Google» имеет слишком много информации, которую я не знаю, с чего начать (или это полезно)! Если есть кто-то, у кого может быть предложение, которое может поставить меня на путь, это было бы здорово!
Спасибо