Моя цель - взять фрейм данных, состоящий из слов и тегов, и свернуть его в фрейм данных, состоящий из предложений и списка тэгов.
Пример ввода:
df = pd.DataFrame([('Effect', 'O'),
('of', 'O'),
('ginseng', 'i'),
('extract', 'i'),
('supplementation', 'i'),
('on', 'O'),
('testicular', 'o'),
('functions', 'o'),
('in', 'O'),
('diabetic', 'p'),
('rats', 'p'),
('.', 'p'),
('OBJECTIVE', 'O'),
('It', 'O'),
('was', 'O')],
columns=('token', 'annotation'))
Цель output:
df = pd.DataFrame([('Effect of ginseng extract supplementation on testicular functions in diabetic rats.', \
['O','O','i','i','i','O','o','o','O','p','p','p','O','O','O']),
('OBJECTIVE It was', ['O','O','O'])],
columns=('token', 'annotation'))
Извините за тупой пример - это действительно первые 15 строк этого набора данных !!
Любые идеи о том, как сжать строки слов в строки предложений, очень цениться.