Я получил несколько текстовых записей из моей базы данных postgresql и собираюсь предварительно обработать эти текстовые документы перед их анализом.
Я хочу маркировать документы, но столкнулся с некоторой проблемой во время токенизации
#some other bunch of regex replacements
#toToken is the text string
toTokens = self.regexClitics1.sub(" \\1",toTokens)
toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)
toTokens = str.strip(toTokens)
Ошибка: TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'
Мне интересно, почему эта ошибка возникает, когда кодированиебаза данных UTF-8?