у меня ок. 40k + HTML-документы, из которых мне нужно извлечь информацию. Я пытался сделать это, используя PHP + Tidy (потому что большинство файлов не правильно сформированы) + DOMDocument + XPath, но это очень медленно .... Я советую использовать регулярные выражения, но HTML-файлы не размечаются семантически (таблица основанный макет, с бессмысленными тегами / классами, используемыми повсеместно), и я не знаю, с чего мне начать ...
Просто любопытно, использует ли regexp (PHP / Python) быстрее, чем библиотека Python XPath? Является ли библиотека Xpath для Python в целом быстрее, чем аналог PHP?