Мне нужно написать программу, которая читает исходный файл Википедии и извлекает все ссылки на другие веб-страницы.Все веб-страницы выглядят как пример:
<a href="/wiki/PageName" title="PageName">Chicken</a>
Мне нужно сопоставить PageName после / wiki / с заголовком и, если они такие же, как и выше, отобразить только PageName на терминале.
Однако следующее не должно совпадать, поскольку оно не в том же формате, что и выше: <a href="http://chicken.com>Chicken</a>
(это ссылка на обычный сайт из Википедии) <a href="/wiki/Chicken >Chicken</a
> (отсутствует заголовок = раздел)Вывод, который я пытаюсь получить, выглядит примерно так:
Пример вывода, который я пытаюсь достичь
Я работал над этим довольно давно и смогчтобы сделать следующее:
#include <stdio.h>
#include <string.h>
int main(int argc, char *argv[])
{
FILE * file;
file = fopen(argv[1], "r");
char line[512];
char* search;
while(!feof(file)){
fgets(line,512,file);
search = strstr( line, "<a href=\"/wiki/");
if(search != NULL){
puts(search);
}
}
}
Код отфильтровывается только до / wiki /, но я не заполнен.Я пытался много искать, но не смог получить преимущество.Помощь будет высоко ценится.