У меня есть набор данных в формате текстового / CSV-файла.Это имеет 2 столбца, как это =
ID - TEXT
1 - this probability is 10-15%
2 - approximately 20% probablity
3 - 15% probability
Я пытаюсь использовать NLTK для извлечения числа из данных, где присутствует ключевое слово 'Probability'
.
Вот так выглядит мой код.
import pandas as pd
import nltk
from nltk import sent_tokenize, word_tokenize
data_file = pd.read_excel(r'data_excel.xlsx',sheet_name = 'data')
df = pd.DataFrame(data_file, columns = ['ID','TEXT'])
keywords = ["probability"]
id_text = nltk.Text(str(df.ID).splitlines())
text_value = nltk.Text(str(df.TEXT).splitlines())
Я хочу, чтобы вывод выглядел следующим образом -
ID - Value
1 - 10
2 - 20
3 - 15
Если кто-то может подтолкнуть в правильном направлении, это будет очень полезно.