Я пытаюсь написать синтаксический анализатор текста на PHP, как это делал Instapaper. То, что я хочу сделать, это; получить веб-страницу и разобрать ее в текстовом режиме.
Получить веб-страницу с помощью cURL и удалить HTML-теги просто. Но у каждой веб-страницы есть некоторые общие области; например, заголовок, навигация, боковая панель, нижний колонтитул, баннеры и т. д. Я хочу получить статью только в текстовом режиме и исключить все остальные части. Также легко исключить эти части, если я знаю информацию "id" или "class". Но я пытаюсь автоматизировать этот процесс и подать заявку на любую страницу, например Instapaper.
Я получаю все содержимое между, но я не знаю, как исключить заголовок, боковую панель или нижний колонтитул и получить только основное тело статьи. Я должен разработать логику, чтобы получить только основную часть статьи.
Мне не важно найти точный код. Также было бы полезно понять, как исключить ненужные части, так как я могу попытаться написать свой собственный код на PHP. Было бы также полезно, если есть примеры на других языках.
Спасибо за помощь.