проблема кодирования с pgsql / python? - PullRequest
0 голосов
/ 23 июня 2011

Я получил несколько текстовых записей из моей базы данных postgresql и собираюсь предварительно обработать эти текстовые документы перед их анализом.

Я хочу маркировать документы, но столкнулся с некоторой проблемой во время токенизации

    #some other bunch of regex replacements
    #toToken is the text string    
    toTokens = self.regexClitics1.sub(" \\1",toTokens)                   
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

Ошибка: TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode' Мне интересно, почему эта ошибка возникает, когда кодированиебаза данных UTF-8?

1 Ответ

4 голосов
/ 23 июня 2011

Почему бы вам не использовать toTokens.strip().Нет необходимости в модуле str.

В Python есть 2 типа строк: str и unicode.Посмотрите на это для объяснения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...