Question

Я получил несколько текстовых записей из моей базы данных postgresql и собираюсь предварительно обработать эти текстовые документы перед их анализом.

Я хочу маркировать документы, но столкнулся с некоторой проблемой во время токенизации

    #some other bunch of regex replacements
    #toToken is the text string    
    toTokens = self.regexClitics1.sub(" \\1",toTokens)                   
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

Ошибка: TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode' Мне интересно, почему эта ошибка возникает, когда кодированиебаза данных UTF-8?

Samuel · Answer 1 · 23 июня 2011

Почему бы вам не использовать toTokens.strip().Нет необходимости в модуле str.

В Python есть 2 типа строк: str и unicode.Посмотрите на это для объяснения.

проблема кодирования с pgsql / python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

проблема кодирования с pgsql / python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов