Question

У меня есть плоский файл , который состоит из следующей структуры:

A1 B1 C1 D1 E1 F1 G1  
A2 B2 C2 D2 E2 F2 G2  
A3 B3 C3 D3 E3 F3 G3

Этот файл содержит около 1 миллион строк .

Я хотел бы создать следующую статистику:

Количество строк в файле.
Количество уникальных записей в конкретной строке (например, B).
Сортировка по строке F и создание файла, содержащего верхних n записей в этой строке .

Как лучше всего это сделатьделать этот анализ?В настоящее время я использую Mac OSX , поэтому было бы предпочтительным решение для Linux / Mac.

Joel · Answer 1 · 06 мая 2011

Довольно легко сделать в bash (оболочка командной строки вашего mac).

Что-то вроде:

# 1. row count
wc -l filename

# 2. uniq count in col 1
cut -d " " -f 1 <filename> | sort | uniq | wc -l

# 3. top n uniq values in col 6, and their counts
cut -d " " -f 6 <filename> | sort | uniq -c | sort -nr | head -n <numrows>

Анализ данных плоских файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Анализ данных плоских файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы