Что мне нужно сделать : извлечь (информацию об отправителях, получателях, Cc и теме) и удалить их из файла HTML. Без использования какой-либо третьей стороны (HTMLAgilityPack, et c)
С чем у меня возникли проблемы : Каким будет мой подход, чтобы получить следующее ( from, to, subject, cc) из тегов html?
Шаги, которые я пробовал: Я пытался получить индекс <p class=MsoNormal>
и последний индекс электронного письма @ sampleemail.com, но я думаю, что это плохой подход , так как в некоторых файлах html будет много «<p class=MsNormal>
», что касается удаления from, to, cc и темы, я просто использовал строку.Remove (indexOf, Я посчитал символы от indexOf до lastIndexOf ), и она сработала
Пример тега, содержащего информацию из:
<p class=MsoNormal style='margin-left:120.0pt;text-indent:-120.0pt;tab-stops:120.0pt;mso-layout-grid align:none;text-autospace:none'><b><span style='color:black'>From:<span style='mso-tab-count:1'></span></span></b><span style='color:black'>1234@sampleemail.com<o:p></o:p></span></p>
HTML ФАЙЛОВЫЙ вывод: