Вот пример моих данных:
import pandas as pd
data = {'Text':['This is an example,',
'Another sentence is here.',
'Lets have fun.',
'this happened weeks ago.',
'I am not sure what to put here.',
'Another fake sentence.'],
'Score':[20, 21, 19, 18, 16, 12]}
# Create DataFrame
df = pd.DataFrame(data)
data_words = {'words':['is',
'fun',
'happened',
'example'],
'frequency':[127, 112, 1234, 32]}
# Create DataFrame
df2 = pd.DataFrame(data_words)
#Final Result:
data_result = {'words':['is',
'fun',
'happened',
'example'],
'frequency':[127, 112, 1234, 32],
'Text': ['This is an example,',
'Lets have fun.',
'this happened weeks ago.',
'This is an example,']}
df_final = pd.DataFrame(data_result)
Я пытаюсь сопоставить df['text']
с df2['words']
в зависимости от того, появляется ли слово в тексте. Мне нужен только один текст на слово, и в идеале он будет основан на "Score"
, но это не совсем необходимо.
Итак, последний df
будет иметь столбцы: "Text"
, "Score"
, "words"
и "frequency"