Я хочу использовать Apache pig
, но до сих пор я только что проанализировал отформатированные данные, такие как CSV или разделенные запятыми и т. Д.
Но если у меня есть некоторые данные, разделенные ';' & '@ & @' и т. д., как с ним работать?
Например, когда я использовал MapReduce Я разделяю данные на ";" на карте, а затем снова "@ & @" в уменьшении.
Также предположим, например, что у нас есть CSV-файл с первым именем пользователя поля, созданный в формате «FirstnameLastname»,
raw = LOAD 'log.csv' USING PigStorage(',') AS (username: chararray, site: chararray, viwes: int);
В приведенном выше примере мы можем просто получить полное имя пользователя, но как я могу получить разные имена и фамилии?