предложение, которое встречается наиболее часто с использованием tfidf в моем фрейме данных с python - PullRequest
0 голосов
/ 10 апреля 2020

Я хочу найти предложение, которое наиболее полно использует tfidf в моем фрейме данных, я выполнил некоторую предварительную обработку в качестве токенизации и стоп-слова, и теперь у меня есть 2 столбца (текст и стоп-слово)

text                                                                   Stopword
bts jimin declared himself the worst player after his self sabotage    ['bts', 'jimin', 'declared','worst', 'player', 'self', 'sabotage']
bts ultra practical suga turned their game into an economy lesson      ['bts', 'ultra', 'practical', 'suga', 'turned', 'game', 'economy', 'lesson']
the mystery of bts sunflowers has finally been solved                  ['mystery', 'bts', 'sunflowers', 'finally', 'solved']

i хотите получить фрейм данных с предложением из столбца Stopword, значением которого является tf_idf, а в столбцах есть такие слова

bts           tf_idf
mystery       tf_idf
suga          tf_idf
jimin         tf_idf
declared      tf_idf
worst         tf_idf
player        tf_idf
safe          tf_idf
sabotage      tf_idf
practical     tf_idf
turned        tf_idf
game          tf_idf
economy       tf_idf
lesson        tf_idf
sunflower     tf_idf
finally       tf_idf
solved        tf_idf

может быть, кто-то здесь знает код и может мне помочь?

1 Ответ

0 голосов
/ 10 апреля 2020

Похоже, есть много уравнений для tf-idf . Я не уверен, какой из них использовать, но как только вы решите, я бы сделал что-то вроде:

def tf_idf(word):
  # do stuff
  return stuff

output = []
for index, row in df.iterrows():
  for word in row:
    output.append([word, tf_idf(word)])

output = pd.DataFrame(data=output, columns=["Word", "TF_IDF"])
...