почему я не мог регидратировать более 18 твитов из 24000 идентификаторов твитов с помощью приложения TWARC / гидратора? Кто-нибудь знает способ лучше? - PullRequest
0 голосов
/ 05 августа 2020

У меня вопрос по поводу регидратации текста твита. Любая помощь будет принята с благодарностью.

Это источник моих данных; который касается твитов короны:

источник набора данных

Я загрузил набор данных из него, который находится на фотографии (с именем 01-feb-2020)

photo of my data set

Then, I filter this data to show me the only tweets from 'GB' which is almost 24000 tweets

totall number of my tweet id

I have used twarc to hydrate my tweets' text as below :

first, install twarc using pip

then, type this in the command line: twarc configure

then, inter consumer key and secret key

then, write a command:

twarc hydrate id.txt > tweet_hydrated.jsonl

But, I only get 18 tweet text out of 24000 tweet id

все, что я мог гидратировать

Я тоже использовал приложение для гидратора, но результат был таким же. Что я делаю не так? Логично ли получить 18 из такого большого количества данных? Приветствуются любые новые предложения по увлажнению мира текста твитов. (извините за мой плохой англи sh Я не наивный оратор)

Ответы [ 2 ]

1 голос
/ 05 августа 2020

Метод сбора идентификаторов твитов (копирующая вставка) был неправильным. После написания правильного кода для сохранения идентификатора твита в текстовый файл проблема была решена.

Кроме того, Энди Пайпер упомянул то же самое в части комментария, которую я скопировал здесь.

Как вы попадаете из формата JSON в формат CSV? Мне интересно, допустимы ли значения идентификатора твита. - Энди Пайпер 5 часов go

Мне удалось воспроизвести это сейчас, и я считаю, что в процессе преобразования ваших JSON входных данных из CSV / Excel в список идентификаторов твитов для гидратации, вы, вероятно, используете JavaScript (?), и идентификаторы твитов теряют свою точность. Подсказка была, когда я заметил, что все идентификаторы твитов заканчиваются на 0000 в моем столбце Excel. Вам нужно будет использовать более точный метод получения идентификаторов твитов в twar c

0 голосов
/ 06 августа 2020

Мне удалось воспроизвести это сейчас, и я считаю, что в процессе преобразования вашего JSON ввода в CSV / Excel в список идентификаторов твитов для гидратации вы, вероятно, используете JavaScript (?) И идентификаторы твитов теряют свою точность. Подсказка была, когда я заметил, что все идентификаторы твитов заканчиваются на 0000 в моем столбце Excel. Вам нужно будет использовать более точный метод получения идентификаторов твитов в twar c.

...