У меня есть следующий фрейм данных с текстом новостей (столбец Text) и запросом (столбец Query), который я запускаю, чтобы извлечь этот c текст новости из API. Не все новостные тексты имеют отношение к запросу, поэтому я пытаюсь создать новый столбец, который возвращает True, если последняя часть строки запроса находится внутри столбца Text. Я знаю, как проверить, находится ли вся строка запроса в тексте, но, как вы видите, часто официальное название компании, например, Nike Ltd., не соответствует тому, как сообщается в тексте новостей (они могут использовать более неформальные сокращения).
Это нечеткое совпадение, и я не совсем понял, как его решить.
news = {'Text':['Nike invests in shoes', 'Adidas invests in t-shirts', 'dog drank water before eating the meal'], 'Source':['NYT', 'WP', 'Guardian'], 'Query' :['Nike Ltd.', "LV", 'dog central']}
news_df = pd.DataFrame(news)
Желаемый результат:
desired = {'Text':['Nike invests in shoes', 'Adidas invests in t-shirts', 'dog drank water before eating the meal'], 'Source':['NYT', 'WP', 'Guardian'], 'Query' :['Nike Ltd.', "LV", 'dog central'], 'Outcome':[True, False, True]}
desired _df = pd.DataFrame(desired )
есть предложения?