У меня есть DataFrame, который выглядит следующим образом:
import pandas as pd
df = pd.DataFrame(
{
"text": [
"happy mothersday!",
"StackOverflow is awesome",
"open source maintainers are cool",
],
"extract": [
"mothers",
"Overflow is awesome",
"open source maintainers are cool",
],
}
)
Это выглядит так:
text extract
0 happy mothersday! mothers
1 StackOverflow is awesome Overflow is awesome
2 open source maintainers are cool open source maintainers are cool
Я бы хотел, чтобы extract
содержал только полные слова - то есть, мой желаемый результат:
text extract
0 happy mothersday! mothersday!
1 StackOverflow is awesome StackOverflow is awesome
2 open source maintainers are cool open source maintainers are cool
Чтобы объяснить:
- в первой строке,
extract
заканчивается на mothers
, который находится в середине mothersday
, поэтому я хотел бы, чтобы он продолжался до конца слова, включая любые конечные знаки препинания; - во второй строке
extract
начинается с Overflow
, что является серединой StackOverflow
, поэтому я бы хотел, чтобы это началось раньше, чтобы включить все StackOverflow
слово; - в третью строку, первое и последнее слова завершены, и поэтому ничего не нужно менять.