дедупликация OverflowError при связывании записей - PullRequest
0 голосов
/ 15 мая 2018

Я хочу использовать библиотеку Dedupe для связывания записей.Я написал этот код из примеров Dedupe на Github.Но когда я запускаю свой код, я получаю эту ошибку:

OverflowError: Python int слишком велик для преобразования в C ssize_t ##

, потому что мои данные очень большие.Как я не могу отфильтровать мои столбцы data_d?это должно помочь.Я искал все вопросы stackoverflow, но я не мог найти правильный ответ.

def readData(filename):
    """
    Read in our data from a CSV file and create a dictionary of records,
    where the key is a unique record ID.
    """

    data_d = {}

    with codecs.open(filename,encoding='utf-8') as f:

       reader = csv.DictReader(f)
       for i, row in enumerate(reader):
            clean_row = dict([(k, preProcess(v)) for (k, v) in row.items()])
            data_d[filename + str(i)] = dict(clean_row)

    return data_d
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...