Чтение элементов из набора данных - PullRequest
0 голосов
/ 23 сентября 2018

Я загружаю файл, который в каждом столбце содержит элемент или пустые ячейки в формате CSV.Когда я пишу код:

groceries_data = groceries_data <- read.transactions("groceries.csv")

Удивительно, но я вижу результат:

summary(groceries_data)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 8146 columns (items) and a density of 0.0004401248

, но когда я пишу код

groceries_data = read.transactions("groceries.csv",sep=",")

Тогда результат:

summary(groceries_data)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146 

, который является правильным результатом из книги, но по логике он должен работать с первой командой, а не со второй.Что здесь не так?

1 Ответ

0 голосов
/ 24 сентября 2018

Эта функция не предназначена для работы с CSV по умолчанию.См. help(read.transactions) - аргумент sep гласит:

строка символов, определяющая, как поля разделяются в файле данных.Значение по умолчанию ("") разделяется на пробелы.

Так что, если вы не скажете, чтобы оно разделялось через запятую, оно разделяется на все пробелы.Если у вас есть пробелы во многих названиях продуктов, то каждое слово каждого имени продукта станет столбцом.

Указав аргумент sep в виде запятой, вы импортируете файл CSV правильно, как вам нужно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...