Почтовый индекс Демография в R - PullRequest
5 голосов
/ 01 июня 2011

Я мог бы достичь своих целей «в долгий путь», но надеюсь остаться полностью в рамках R. Я надеюсь добавить демографические данные переписи по почтовому индексу к записям в моей базе данных. Я знаю, что у R есть несколько пакетов на основе переписи, но, если я что-то не упустил, эти данные, по-видимому, не существуют на уровне почтового индекса, и при этом не является интуитивно понятным объединение с существующим фреймом данных.

Короче говоря, возможно ли сделать это в R или мой лучший подход - захватить данные в другом месте и прочитать их в R?

Любая помощь будет принята с благодарностью!

Ответы [ 5 ]

6 голосов
/ 01 июня 2011

Короче, нет. Переписи в почтовые переводы обычно создаются из собственных источников.

Маловероятно, что вы найдете что-либо на уровне почтового индекса с точки зрения переписи (конфиденциальность). Однако это не значит, что вы остались в дураках. Вы можете использовать имеющиеся у вас почтовые индексы и добавлять данные переписи на уровне MSA, muSA или CSA. Теперь все, что вам нужно, это список почтовых индексов в вашем MSA, muSA или CSA, чтобы вы могли объединиться. Есть куча онлайн, которые довольно дешевы, если у вас еще нет такого списка.

Например, в Канаде мы можем получить данные о доходах от CRA на уровне FSA (первые три цифры почтового индекса в форме A1A 1A1). Я не уверен, что или если IRS предоставляет подобную информацию, я также не слишком знаком с данными переписи населения США, но я предполагаю, что они предоставляют информацию на уровне CSA по крайней мере.

Если вы сбиты с толку всеми этими аббревиатурами:

  1. MSA: http://en.wikipedia.org/wiki/Metropolitan_Statistical_Area
  2. CSA: http://en.wikipedia.org/wiki/Combined_statistical_area
  3. muSA: http://en.wikipedia.org/wiki/Micropolitan_Statistical_Area
3 голосов
/ 12 декабря 2018

Как уже упоминали другие в этой теме, американское FactFinder Бюро переписей является бесплатным источником исчерпывающих и подробных данных. К сожалению, его не очень удобно использовать в необработанном формате.

Мы собрали, очистили, консолидировали и переформатировали данные Бюро переписей. Подробности этого процесса и способы использования файлов данных можно найти в нашем блоге команды .

Ни одна из этих таблиц на самом деле не имеет поля с именем «ZIP-код». Скорее, у них есть поле с именем «ZCTA5». ZCTA5 (или ZCTA) можно рассматривать как взаимозаменяемые с почтовым индексом с учетом следующих предостережений:

  • ZCTA для почтовых индексов PO Box не существует - это означает, что для 42 000 почтовых индексов США существует 32 000 ZCTA.
  • ZCTA, обозначающие области табуляции почтовых индексов, основаны на почтовых индексах, но не обязательно соответствуют точным границам почтовых индексов. Если вы хотите узнать больше о ZCTA, пожалуйста, обратитесь к по этой ссылке . Бюро переписей также предоставляет анимацию , которая показывает, как формируются ZCTA.
1 голос
/ 05 декабря 2017

Я только что написал пакет R под названием totalcensus (https://github.com/GL-Li/totalcensus),, с помощью которого вы можете легко извлечь любые данные в ходе десятилетней переписи и обследования ACS.

Для этого старого вопроса, если вы все еще заботитесь,Вы можете получить общую численность населения (по умолчанию) и численность других рас по национальным данным десятилетней переписи 2010 или 2015 года. ACS 5-летнее обследование.

С 2015 года ACS 5-летнее обследование. Загрузить национальные данные с download_census("acs5year", 2015, "US")а затем:

zip_acs5 <- read_acs5year(
    year = 2015,
    states = "US",
    geo_headers = "ZCTA5",
    table_contents = c(
        "white = B02001_002",
        "black = B02001_003",
        "asian = B02001_005"
    ),
    summary_level = "860"
)

#               GEOID        lon      lat ZCTA5 state population white black asian GEOCOMP SUMLEV        NAME
#     1: 86000US01001  -72.62827 42.06233 01001    NA      17438 16014   230   639     all    860 ZCTA5 01001
#     2: 86000US01002  -72.45851 42.36398 01002    NA      29780 23333  1399  3853     all    860 ZCTA5 01002
#     3: 86000US01003  -72.52411 42.38994 01003    NA      11241  8967   699  1266     all    860 ZCTA5 01003
#     4: 86000US01005  -72.10660 42.41885 01005    NA       5201  5062    40    81     all    860 ZCTA5 01005
#     5: 86000US01007  -72.40047 42.27901 01007    NA      14838 14086   104   330     all    860 ZCTA5 01007
# ---                                                                                                     
# 32985: 86000US99923 -130.04103 56.00232 99923    NA         13    13     0     0     all    860 ZCTA5 99923
# 32986: 86000US99925 -132.94593 55.55020 99925    NA        826   368     7     0     all    860 ZCTA5 99925
# 32987: 86000US99926 -131.47074 55.13807 99926    NA       1711   141     0     2     all    860 ZCTA5 99926
# 32988: 86000US99927 -133.45792 56.23906 99927    NA        123   114     0     0     all    860 ZCTA5 99927
# 32989: 86000US99929 -131.60683 56.41383 99929    NA       2365  1643     5    60     all    860 ZCTA5 99929

Из переписи 2010 года. Загрузите национальные данные с помощью download_census("decennial", 2010, "US"), а затем:

zip_2010 <- read_decennial(
    year = 2010,
    states = "US",
    table_contents = c(
        "white = P0030002", 
        "black = P0030003",
        "asian = P0030005"
    ),
    geo_headers = "ZCTA5",
    summary_level = "860"
)

#               lon      lat ZCTA5 state population white black asian GEOCOMP SUMLEV
#     1:  -66.74996 18.18056 00601    NA      18570 17285   572     5     all    860
#     2:  -67.17613 18.36227 00602    NA      41520 35980  2210    22     all    860
#     3:  -67.11989 18.45518 00603    NA      54689 45348  4141    85     all    860
#     4:  -66.93291 18.15835 00606    NA       6615  5883   314     3     all    860
#     5:  -67.12587 18.29096 00610    NA      29016 23796  2083    37     all    860
# ---                                                                            
# 33116: -130.04103 56.00232 99923    NA         87    79     0     0     all    860
# 33117: -132.94593 55.55020 99925    NA        819   350     2     4     all    860
# 33118: -131.47074 55.13807 99926    NA       1460   145     6     2     all    860
# 33119: -133.45792 56.23906 99927    NA         94    74     0     0     all    860
# 33120: -131.60683 56.41383 99929    NA       2338  1691     3    33     all    860
0 голосов
/ 12 января 2019

просто для цикла, чтобы получить население уровня почтового индекса.вам нужно получить ключ, хотя.это для США сейчас.

masterdata <- data.table()

    for(z in 1:length(ziplist)){
      print(z)
      textt <- paste0("http://api.opendatanetwork.com/data/v1/values?variable=demographics.population.count&entity_id=8600000US",ziplist[z],"&forecast=3&describe=false&format=&app_token=YOURKEYHERE")

      errorornot <- try(jsonlite::fromJSON(textt), silent=T) 
      if(is(errorornot,"try-error")) next

      data <- jsonlite::fromJSON(textt)
      data <- as.data.table(data$data)
      zipcode <- data[1,2]
      data <- data[2:nrow(data)]
      setnames(data,c("Year","Population","Forecasted"))
      data[,ZipCodeQuery:=zipcode]
      data[,ZipCodeData:=ziplist[z]]
      masterdata <- rbind(masterdata,data)

    }
0 голосов
/ 01 июня 2011

Ваша лучшая ставка, вероятно, с США. Бюро переписей TIGER / Линейные шейп-файлы . У них есть шейп-файлы области табуляции почтовых индексов (ZCTA5) на 2010 год на уровне штата, которые могут быть достаточными для ваших целей.

Данные самой переписи можно найти по адресу American FactFinder . Например, вы можете получить оценки населения на уровне округа (т.е. города / города), но не прямые оценки населения на уровне почтового индекса. Я не знаю деталей вашего набора данных, но одно решение может потребовать использования таблиц взаимосвязей, которые также доступны как часть данных TIGER / Line, или, альтернативно, пространственное объединение названий мест, содержащих данные переписи (шейп-файлы субстрант) с кодами ZCTA5.

Примечание из метаданных: «Эти продукты могут свободно использоваться в продукте или публикации, однако подтверждение должно быть предоставлено Бюро переписей США в качестве источника».

НТН

...