Почему некоторые категории меняются, когда я сохраняю файл spss как csv и снова читаю его в spss? - PullRequest
0 голосов
/ 30 октября 2019

У меня есть большой файл spss (.sav) и я сохранил его как файл .csv. Этот файл слишком велик для открытия в Excel, поэтому я снова читаю этот файл в spss. Тем не менее, в настоящее время есть несколько случаев, когда для определенных переменных вместо категорий исходного файла есть даты. Я ничего не изменил в самом файле, так как же возможно, что содержимое некоторых переменных изменяется только для небольшого числа случаев?

1 Ответ

0 голосов
/ 13 ноября 2019

Эта проблема может заключаться в том, что интерфейс данных IBM SPSS Statistics Import использует синтаксис команды GET DATA с переменными форматами, определенными как AUTO.

В результате продукт фактически читает данные дважды, но вставляет толькосинтаксис команды GET DATA с первого прохода - отображение AUTO для всех определенных полей. В последнем выпуске (IBM SPSS Statistics 26.0) подкоманда / MAP теперь предоставляет вам подкоманду / VARIABLES = и определения переменных, которые SPSS Statistics фактически использовали для чтения данных.

В дальнейшем вы можете надежно читатьодинаковыми текстовыми файлами, используя синтаксис вставленной команды GET DATA (с вашими собственными изменениями).

Например: Интерфейс File -> Import Data выдает следующий вывод в окно Output Viewer

PRESERVE. 
SET DECIMAL DOT. 

GET DATA  /TYPE=TXT 
  /FILE="/Applications/IBMSPSSStatistics/Subscription/Samples/English/demo.txt" 
  /ENCODING='UTF8' 
  /DELIMITERS="\t" 
  /QUALIFIER='"' 
  /ARRANGEMENT=DELIMITED 
  /FIRSTCASE=2 
  /DATATYPEMIN PERCENTAGE=95.0 
  /VARIABLES= 
  Age AUTO 
  Gender AUTO 
  MaritalStatus AUTO 
  Address AUTO 
  Income AUTO 
  IncomeCategory AUTO 
  JobCategory AUTO 
  /MAP. 
RESTORE. 
CACHE. 
EXECUTE. 

Data written to the working file. 
7 variables and 200 cases written. 
Variable: Age                Type: Number  Format : F2 
Variable: Gender             Type: String  Format : A4 
Variable: MaritalStatus      Type: Number  Format : F1         One or more values were set to system-missing. 
Variable: Address            Type: Number  Format : F2 
Variable: Income             Type: Number  Format : F6.2 
Variable: IncomeCategory     Type: Number  Format : F4.2 
Variable: JobCategory        Type: Number  Format : F1 

Substitute the following to build syntax for these data. 
  /VARIABLES= 
   Age F2 
   Gender A4 
   MaritalStatus F1 
   Address F2 
   Income F6.2 
   IncomeCategory F4.2 
   JobCategory F1 

DATASET NAME DataSet1 WINDOW=FRONT.

Если вы замените подкоманду / VARIABLES предлагаемым содержимым, вы сможете надежно читать эти данные одинаково каждый раз.

Таким образом:

PRESERVE. 
SET DECIMAL DOT. 

GET DATA  /TYPE=TXT 
  /FILE="/Applications/IBMSPSSStatistics/Subscription/Samples/English/demo.txt" 
  /ENCODING='UTF8' 
  /DELIMITERS="\t" 
  /QUALIFIER='"' 
  /ARRANGEMENT=DELIMITED 
  /FIRSTCASE=2 
  /DATATYPEMIN PERCENTAGE=95.0 
  /VARIABLES= 
   Age F2 
   Gender A4 
   MaritalStatus F1 
   Address F2 
   Income F6.2 
   IncomeCategory F4.2 
   JobCategory F1   
  /MAP. 
RESTORE. 
CACHE. 
EXECUTE. 
...