Автоматическая загрузка контента из твитов в Python - PullRequest
0 голосов
/ 22 января 2020

Я работаю над проектом по манипулированию выводом json API Twitter в форму, которую пользователи, не имеющие технической подготовки, могут использовать для анализа семантики твитов. Некоторые твиты содержат нетекстовый контент, например изображение, рисунок или видео. Тем не менее, наша область анализа имеет большой объем удаленных твитов. У нас есть текстовое тело сохраненных твитов, но контент сохраняется в виде ссылки, такой как эта: https://twitter.com/JimmyButler/status/1204461116480458753.

Я пытался использовать стандартный urllib метод загрузки через URL-адрес, показанный ниже (где temptweet [0] содержит URL-адрес).

tempc = urllib.request.urlopen(temptweet[0])
content = tempc.read()
f = open('test'+filtered_tweet['user']+'.html','wb')
f.write(content)
f.close()

Это работает только для сохранения * c версии страницы html. Всякий раз, когда вы go расширяете изображение, страница вылетает. Изучив себя, я обнаружил, что каждое изображение хранится в другой области, например https://pbs.twimg.com/media/ELca__CWsAMNeA0.jpg для предыдущего примера. Я не смог найти место для хранения видео или gif-файлов.

Существует ли способ автоматического сохранения вложенного контента из твита, используя только информацию, предоставленную выводом json API-интерфейса твиттера? Чтобы усложнить ситуацию, я не имею прямого доступа к API; Мне просто дают вывод json. Это невыполнимая задача, которую мне дали, или она может быть выполнена?

Заранее благодарим за понимание!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...