Я пытаюсь посчитать твиты на пользователя через Pig.Но я, кажется, столкнулся с проблемой.Я и одноклассник впервые используем Apache Pig (на самом деле Hadoop и все различные компоненты в целом).Мы пытаемся рассказать о Twitter, который предоставил нам некоторый код.Но когда мы пытаемся выполнить COUNT, он выдает нам следующую ошибку:
ERROR 1045: Не удалось вывести функцию сопоставления для COUNT, так как несколько или ни один из них не подходит.Пожалуйста, используйте явное приведение.
Мы пытались провести какое-то исследование в Интернете, но найти решение просто сложно.Мы попытались запустить его с «Pig -x local», но также и через HDFS.
Мы пытаемся выполнить COGROUP для двух таблиц, а затем COUNT для подсчета количества твитов на пользователя.
Для получения дополнительной информации: мы запускаем это на AWS от Amazon.Я не знаю, может ли это быть полезным.
Ссылка на учебник, на всякий случай: https://www.edureka.co/blog/pig-tutorial/ Ссылка на вставку из DUMP COGROUP между двумя таблицами: https://pastebin.com/DAFhAJV4
Это код, который у нас есть:
UserData = LOAD 'hdfs://ourip/data/userv5.csv' using PigStorage(',') AS (Id:int,UserName:chararray);
TweetData = LOAD 'hdfs://ourip/data/tweetsv5.csv' using PigStorage(',') AS (UserId:int,Text:chararray);
groupby_user2 = COGROUP TweetData by 'UserId', UserData by 'Id';
count = FOREACH groupby_user2 GENERATE COUNT(Id);
dump COUNT;