Итеративное присвоение уникального идентификатора в Pandas - PullRequest
0 голосов
/ 26 апреля 2020

У меня проблема с итерацией по Pandas DataFrame, который состоит из 200 000 строк. Каждая строка состоит из предложений различной длины, которые я sh разделю на специальные символы, как видно из метода re.split.

Что я должен сделать sh, это отслеживать, какие предложения были разбиты на количество под-предложений, назначая им уникальный идентификатор.

Теперь у меня есть:

lengths = []
reviews = []
for sentence in corpus:
    subsentence = re.split(r'[.|,|?|!]', str(sentence))
    for i in review:
        lengths.append(len(review))
        reviews.append(i)

df = pd.DataFrame({'review':reviews,'length': lengths})

изображение результирующего фрейма данных

То, что я хочу, это для предложений, которые разбиты на несколько подпунктов. -присутствия для предоставления уникального идентификатора, чтобы я мог снова склеить их.

1 Ответ

0 голосов
/ 26 апреля 2020
lengths = []
reviews = []
unique_ids = []
unique_id = 0
for sentence in corpus:
    review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review
    for i in review:
        lengths.append(len(review))
        reviews.append(i)
        unique_ids.append(unique_id)
    unique_id += 1

df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...