Каков наилучший способ анализа журналов чата Gmail со страницы, на которой он отображается?Насколько я знаю, это все еще единственный способ получить доступ к серверным журналам чата Gmail (через Gmail на рабочем столе или через мобильную Gmail).
При просмотре сгенерированного источника, где происходит разговор, разметкавыглядит как вложенные div и span (и div в других местах на странице имеют рандомизированные двухсимвольные идентификаторы и классы без шаблона).Вот отрывок из строки, которая имеет временную метку слева:
<div>
<span style="display:block;float:left;color:#888">
2:56 PM
</span>
<span style="display:block;padding-left:6em">
<span>
<span style="font-weight:bold">me</span>: i'm trying to think of a good way to parse gmail chat logs
</span>
</span>
</div>
Но не каждая строка имеет временную метку, поэтому те, у кого ее нет, ставят неразрывные пробелы на свое место:
Должен ли я использовать XPath?Есть ли что-нибудь более эффективное?
Редактировать:
Только для данных это выглядит так:
12:43 AM John: Something something something.
Something something something.
me: Something something something?
12:44 AM Also, something something something.
12:47 AM Something something something.
12:48 AM Something something something
with something something something.
12:49 AM John: Something.