Я работаю над синтаксическим анализатором PHP, который анализирует страницу «групп» HTML моей школы. Это страницы с уникальным URL-адресом, основанным на названии курса и нескольких других переменных. Страница состоит из множества HTML <table>
.
Загрузка HTML из URL-адреса работает нормально, пока не встретится )
в содержимом файла. Тогда он просто перестает загружаться и сохраняет только то, что получил. Очевидно, что загруженный HTML-код не был создан мной, и я никак не могу предотвратить попадание таких символов в код HTML.
Однако он работает нормально, когда я запускаю его локально, используя MAMP. Я пытался искать ответы, но не нашел ничего, что решило бы мою проблему.
Как я могу избежать этих символов перед загрузкой?
Мой текущий PHP:
$dom = new DOMDocument;
libxml_use_internal_errors(true); // the HTML i parse contains a lot of unclosed tags, this to prevent the errors from displaying on the page
$dom->loadHTMLFile('http://isarog.hhs.nl/Web_Site/HHS/ICTM/Public/Iris_Roster/Timetables/11_2/11_2-CMD-4vt-p2.html');
echo $dom->getElementsByTagName('html')->item(0)->nodeValue;