Экспорт данных строк из большого текстового файла с использованием R - PullRequest
0 голосов
/ 30 марта 2019

У меня большой текстовый файл с данными из всех 50 штатов США.Хотелось бы отбросить данные в штат Нью-Йорк, используя R или Rstudio, так как я хотел бы получить их геокодирование.Я могу легко отсортировать данные во фрейме с помощью Rstudio, но я не могу получить их в отдельный текстовый файл оттуда.Я новичок в R и, очевидно, упускаю что-то фундаментальное.

Файл намного больше, чем может обработать Excel.Filemaker 17 не будет содержать разделители, используемые в файле «^».Выделение в возвышенном тексте было громоздким и испортило мои разделители.

Пытался использовать write.csv - write.csv (переменная, имя файла, row.names = F) - меня это смущает, так как кажется, что он не определяет, как переменная извлекается из файла, иэто дало различные ошибки.Даже не уверен, что это лучший ход.

Ожидайте просто извлечь около 200 000 записей для штата Нью-Йорк из простого текстового файла (.txt), чтобы можно было геокодировать данные.Не могу этого сделать.

1 Ответ

0 голосов
/ 25 апреля 2019

Предполагая, что у вас есть полный набор данных (назовем его states) в R в качестве фрейма данных, вы можете либо создать отдельное его подмножество, либо просто удалить из него все состояния, кроме NY.

Подмножество:

ny <- states[states$state == "NY", ]

Вы создаете новый фрейм данных (ny) для работы с ним.

Удалите все состояния, кроме NY:

states <- states[states$state == "NY", ]

Разница в том, что вы просто перезаписываете свой исходный фрейм данных измененным.

Если вам не нужны другие штаты, кроме Нью-Йорка, то было бы лучше - с точки зрения памяти - перезаписатьисходный фрейм данных, если вы затем намереваетесь каким-либо образом манипулировать им.

Например, изменение значений и / или структуры фрейма данных займет больше памяти, потому что фреймы данных, которые совместно используют идентичные данные (т.е. неизмененныеподмножества) просто указывают на одну и ту же копию данных в том смысле, что они существуют в одном секторе памяти, и исходный фрейм данных и фрейм данных поднабора указывают на него (исходный объект указываетдля всего набора данных подмножество указывает только на его части, тем самым экономя память (при условии, что оно не изменено)).

Только когда вы изменяете указанное подмножество, создается отдельная копия,таким образом, занимая больше места.

Если, однако, вы подозреваете, что вам понадобится изменить другие данные о состоянии в будущем, я рекомендую создать подмножество и работать с ним, используя его в качестве источника.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...