R чтение файла FWF, где некоторые строки имеют разную ширину (отступы) - PullRequest
0 голосов
/ 06 апреля 2020

Я хочу использовать R для чтения файла fwf, который выглядит следующим образом (ссылка здесь ):

STANDARD METROPOLITAN STATISTICAL AREAS (SMSAs) AND COMPONENTS, 1960, WITH FIPS CODES

(Standard Metropolitan Statistical Areas defined by Office of Management and Budget, November 1960)

Source:                 U.S. Census Bureau
Internet Release Date:  October 25, 2000

The file layout is located at the end of the data file.

            STATE/  CITY/
SMSA        COUNTY  TOWN        Standard Metropolitan Statistical Area and Components
FIPS        FIPS    FIPS
CODE        CODE    CODE

0040                            Abilene, TX SMSA
0040        48253                 Jones County
0040        48441                 Taylor County

0080                            Akron, OH SMSA
0080        39153                 Summit County 

Я могу пропустить первые пару строк, и я думаю с readr::read_fwf Я бы поставил col-позиции для начала и остановки и colnames; Однако проблема заключается в том, что в некоторых строках (без STATE или CITY FIPS CODE) последний столбец начинается с позиции 33, тогда как в других строках это позиция 35 (если присутствует STIP FIPS) или даже 37 (если присутствует CITY FIPS). ). Таким образом, отступы имеют смысл здесь. Или это файл фиксированной ширины с различной шириной . Как с этим бороться?

Вот информация о расположении этого файла. кажется, есть неявное вложенное предложение if: если not blank STATE FIPS, то начните с 35-го столбца.

File Layout:

Character       Length          Field

1-4             4               Four-digit FIPS SMA code ( 1950 definition)
5-12            8               Blank
13-14           2               Two-digit FIPS state code (blank at SMA level)
15-17           3               Three-digit FIPS county code (blank at SMA level)
18-20           3               Blank
21-25           5               Five-digit FIPS entity code (blank at SMA and county levels) 
26-32           7               Blank
33-99           67              SMA Title
35-99           65              Component County Name
37-99           63              Component City/Town Name (New England Only) 

EDIT : вот реальная проблема, я думаю. файл выглядит по-разному при отображении в браузере (правильные отступы столбцов) и при загрузке (или в источнике страницы). он вставляет вкладки и прочее при загрузке. Argh.

enter image description here

...