Позвольте мне начать с того, что я не профессионал в изучении веб-страниц.Я могу сделать основы на большинстве платформ, но это все.
Я пытаюсь создать основу для веб-приложения, которое может помочь пользователям улучшить изучение языка путем создания дополнительных данных, метрик, а также созданияновые инструменты для самоконтроля.Веб-сайт Duolingo не предлагает никаких API, поэтому моя следующая мысль на данный момент это просто очистить https://www.duome.eu/. Я написал небольшой скребок, но не понял, что сайт был java.В следующем примере я хочу собрать все слова из вкладки Words
, которые содержат якоря:
using System;
using HtmlAgilityPack;
using System.Net.Http;
using System.Text.RegularExpressions;
namespace DuolingoUpdate
class Program
static void Main(string[] args)
string userName = "Podus";
private static async void UpdateDuolingoUser(string userName)
string url = "https://www.duome.eu/" + userName + "/progress/";
// Create the http client connection
HttpClient httpClient = new HttpClient();
var html = await httpClient.GetStringAsync(url);
// Store the html client data in an object
HtmlDocument htmlDocument = new HtmlDocument();
//var words = htmlDocument.DocumentNode.Descendants("div")
// .Where(node => node.GetAttributeValue("id", "")
// .Equals("words")).ToList();
//var wordList = words[0].Descendants("a")
// .Where(node => node.GetAttributeValue("class", "")
// .Contains("wA")).ToList();
html-объект приведенного выше кода содержит:
<!DOCTYPE html>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="google" value="notranslate">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Duolingo · Podus @ duome.eu</title>
<link rel="stylesheet" href="/style.css?1548418871" />
<link href="/favicon.ico" rel="shortcut icon" type="image/x-icon" />
<script src="//code.jquery.com/jquery-3.3.1.min.js"></script>
<script type="text/javascript">
$(document).ready(function() {
var visitortime = new Date();
var visitortimezone = "GMT " + -visitortime.getTimezoneOffset()/60;
//localStorage.tz = visitortimezone;
//timezone = Date.parse(localStorage.tz);
//timezone = localStorage.tz;
type: "GET",
url: "/tz.php",
data: 'time='+ visitortimezone,
success: function(){
<noscript>Click <a href="https://duome.eu//Podus/progress/">here</a> to adjsut XP charts to your local timezone. </noscript>
Но если вы перейдете по фактическому URL https://www.duome.eu/Podus/progress/,, на сайте будет много скриптов.Итак, при проверке первая проблема заключается в том, что я не получаю HTML, который вижу в браузере.Вторая проблема заключается в том, что если вы просматриваете источник, он не похож на то, что находится в inspect
, и я не вижу ничего в источнике, которое заставило бы меня изолировать данные от div id="words"
, учитывая мою тусклостьзнание веб-страниц, созданных на Java, как мне это сделать, или это вообще возможно?