Для веб-страницы, не отформатированной должным образом, синтаксический анализатор libxml (который используется в оригинальном STWebArchiver) не является хорошим решением.Поэтому я обновляю STWebArchiver с помощью регулярного выражения следующим образом:
NSArray *pathsForImagesAndScripts = [self extractResourcesWithHTML:htmlContent regex:@"<(?:script|img).*src=[\"']((?!data:).*?)[\"']"];
checkout: this