Поскольку Gmail не предоставляет API для получения этой информации, похоже, что вы хотите провести просмотр веб-страниц .
Соскоб в Интернете (также называемый веб)
сбор данных или извлечение данных через Интернет)
компьютерная программная техника
извлечение информации с сайтов
Существует множество способов сделать это, как упомянуто в статье в Википедии, на которую мы ссылались ранее:
Человек копирует и вставляет: иногда даже
лучшая технология Web-выскабливания может
не заменяет ручной осмотр человека
и копировать и вставить, а иногда это
может быть единственным работоспособным решением, когда
сайты для соскоб явно
установить барьеры, чтобы предотвратить машину
автоматизации.
Подрезка текста и регулярное выражение
соответствие: простой, но мощный
подход к извлечению информации из
Веб-страницы могут быть основаны на UNIX
команда grep или регулярное выражение
соответствующие средства программирования
языки (например, Perl или
Python).
HTTP программирование: статическое и динамическое
Веб-страницы могут быть получены путем публикации
HTTP-запросы к удаленному веб-серверу
используя программирование сокетов.
Разбор DOM: встраивая
полноценный веб-браузер, такой как
Internet Explorer или Mozilla Web
управление браузером, программы могут получить
динамическое содержимое, сгенерированное
клиентские скрипты. Эти веб-браузер
элементы управления также анализируют веб-страницы в
DOM-дерево, на основе которого программы могут
получить части веб-страниц.
HTML-парсеры: некоторые полуструктурированные
языки запросов данных, такие как XML
язык запросов (XQL) и
язык гипертекстовых запросов (HTQL), может
использоваться для анализа HTML-страниц и
извлекать и преобразовывать веб-контент.
Программное обеспечение для поиска в Интернете: существует множество
Доступно программное обеспечение
может быть использован для настройки веб-соскоб
решения. Это программное обеспечение может обеспечить
веб-интерфейс записи, который удаляет
необходимость писать вручную
Скраб-коды или скрипты
функции, которые можно использовать для извлечения
и трансформировать веб-контент, и
интерфейсы базы данных, которые могут хранить
очищенные данные в локальных базах данных.
Семантическая аннотация с распознаванием:
Веб-страницы могут включать метаданные или
семантические разметки / аннотации, которые могут
использовать для поиска конкретных данных
сниппеты. Если аннотации
встраивается в страницы, как микроформат
делает эту технику можно рассматривать как
особый случай разбора DOM. В
другой случай, аннотации,
организован в семантический слой 2 ,
хранятся и управляются отдельно
веб-страницы, так что веб-скребки могут
получить схему данных и инструкции
из этого слоя, прежде чем соскоб
стр.
И прежде чем я продолжу, пожалуйста, помните о юридических последствиях всего этого. Я не знаю, соответствует ли это условиям gmail, и я бы порекомендовал проверить их, прежде чем двигаться дальше. Вы также можете оказаться в черном списке или столкнуться с другими проблемами, такими как эта.
При всем этом я бы сказал, что в вашем случае вам нужен какой-то паук и DOM-парсер, чтобы войти в gmail и найти нужные вам данные. Выбор этого инструмента будет зависеть от вашего технологического стека.
Как разработчик ruby, мне нравится использовать Mechanize и nokogiri . Используя PHP, вы можете взглянуть на такие решения, как Sphider .