У меня проблема с итерацией по Pandas DataFrame, который состоит из 200 000 строк. Каждая строка состоит из предложений различной длины, которые я sh разделю на специальные символы, как видно из метода re.split.
Что я должен сделать sh, это отслеживать, какие предложения были разбиты на количество под-предложений, назначая им уникальный идентификатор.
Теперь у меня есть:
lengths = []
reviews = []
for sentence in corpus:
subsentence = re.split(r'[.|,|?|!]', str(sentence))
for i in review:
lengths.append(len(review))
reviews.append(i)
df = pd.DataFrame({'review':reviews,'length': lengths})
изображение результирующего фрейма данных
То, что я хочу, это для предложений, которые разбиты на несколько подпунктов. -присутствия для предоставления уникального идентификатора, чтобы я мог снова склеить их.