Когда я загружаю текстовый файл в RDD, он по умолчанию разделяется на каждую строку. Например, рассмотрим следующий текст:
Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum
has been the industry's standard dummy text ever since the 1500s. When an
unknown printer took a galley of type and scrambled it to make a type specimen book
and publish it.
Если я загружаю его в RDD, как показано ниже, данные разбиваются на каждую строку
>>> RDD =sc.textFile("Dummy.txt")
>>> RDD.count()
4
>>> RDD.collect()
['Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum ',
'has been the industry's standard dummy text ever since the 1500s. When an ',
'unknown printer took a galley of type and scrambled it to make a type specimen book',
'and publish it.']
Поскольку в текстовый файл, RDD.count()
дает 4 в качестве вывода. Аналогично, список RDD.collect()
содержит 4 строки. Но есть ли способ загрузить ваш файл так, чтобы он распараллеливался по предложениям, а не по строкам, в этом случае вывод должен быть следующим:
>>> RDD.count()
3
>>> RDD.collect()
['Lorem Ipsum is simply dummy text of the printing and typesetting industry.', 'Lorem Ipsum
has been the industry's standard dummy text ever since the 1500s.', 'When an unknown
printer took a galley of type and scrambled it to make a type specimen book and publish it.']
Могу ли я передать какой-то аргумент sc.textFile
такой что мои данные разделяются, когда появляется точка полной остановки, а не когда строка в текстовом файле заканчивается