Я хочу использовать R для чтения файла fwf, который выглядит следующим образом (ссылка здесь ):
STANDARD METROPOLITAN STATISTICAL AREAS (SMSAs) AND COMPONENTS, 1960, WITH FIPS CODES
(Standard Metropolitan Statistical Areas defined by Office of Management and Budget, November 1960)
Source: U.S. Census Bureau
Internet Release Date: October 25, 2000
The file layout is located at the end of the data file.
STATE/ CITY/
SMSA COUNTY TOWN Standard Metropolitan Statistical Area and Components
FIPS FIPS FIPS
CODE CODE CODE
0040 Abilene, TX SMSA
0040 48253 Jones County
0040 48441 Taylor County
0080 Akron, OH SMSA
0080 39153 Summit County
Я могу пропустить первые пару строк, и я думаю с readr::read_fwf
Я бы поставил col-позиции для начала и остановки и colnames; Однако проблема заключается в том, что в некоторых строках (без STATE или CITY FIPS CODE) последний столбец начинается с позиции 33, тогда как в других строках это позиция 35 (если присутствует STIP FIPS) или даже 37 (если присутствует CITY FIPS). ). Таким образом, отступы имеют смысл здесь. Или это файл фиксированной ширины с различной шириной . Как с этим бороться?
Вот информация о расположении этого файла. кажется, есть неявное вложенное предложение if
: если not blank STATE FIPS
, то начните с 35-го столбца.
File Layout:
Character Length Field
1-4 4 Four-digit FIPS SMA code ( 1950 definition)
5-12 8 Blank
13-14 2 Two-digit FIPS state code (blank at SMA level)
15-17 3 Three-digit FIPS county code (blank at SMA level)
18-20 3 Blank
21-25 5 Five-digit FIPS entity code (blank at SMA and county levels)
26-32 7 Blank
33-99 67 SMA Title
35-99 65 Component County Name
37-99 63 Component City/Town Name (New England Only)
EDIT : вот реальная проблема, я думаю. файл выглядит по-разному при отображении в браузере (правильные отступы столбцов) и при загрузке (или в источнике страницы). он вставляет вкладки и прочее при загрузке. Argh.