У меня есть data frame
, в котором есть строки.
Я хочу сгруппировать строки в 3 категории:
- первая категория - это строки, в которых есть только слова в
определенный список и ничего кроме этого. Слова могут быть в любом порядке, если строка содержит только слова из этого списка. Кроме того, он не должен включать все слова из списка.
- вторая категория является первой категорией в дополнение к другим
слова, которых нет в списке.
- третья категория - это все, что не первые два
категории
Я начал с очистки данных, удалив все знаки препинания и преобразовав текст в нижний регистр.
Пример: * ** 1022 тысячу двадцать одна *
list = ["dog name", "dog age", "dog breed"]
Для того, чтобы что-то было в первой категории , строка должна выглядеть точно так:
"dog name dog age dog breed".
или
"dog age dog name"
Если что-то будет во второй категории , его строка будет выглядеть примерно так:
"dog name suzie dog age 4 dog breed pug"
или
"dog name suzie dog breed pug"
Для чего-то, что находится в третьей категории , его строка будет выглядеть примерно так:
"my dogs name is suzie and she is a pug who is 4 years old"
Любые предложения / советы по их группировке?
Спасибо :)