У меня есть приложение, которое анализирует html-страницу и извлекает некоторый текст с использованием иностранных символов, например, 'Felvidà © k Ma'.Теперь я хочу ввести это в свою базу данных, но не в этом формате, а в оригинальном формате.Поэтому я могу преобразовать его в utf 8 перед записью в базу данных сервера sql или даже записью в текстовый файл.Вот оригинальный термин «Felvidék Ma».Я использую выражения регулярных выражений для анализа HTML, поэтому я не уверен, есть ли возможность помочь с этим.Вот мой код:
If Not String.IsNullOrEmpty(_html) Then
'get all href tags in the html page
Dim regex As Regex = New Regex( _
"<TotalFound>(?<link>.*?)</TotalFound>", _
RegexOptions.IgnoreCase _
Or RegexOptions.CultureInvariant _
Or RegexOptions.IgnorePatternWhitespace _
Or RegexOptions.Compiled _
)
Dim ms As MatchCollection = regex.Matches(_html)
Dim url As String = String.Empty
For Each m As Match In ms
url = m.Groups("link").Value
If Not String.IsNullOrEmpty(url) Then
Я нашел источник моей проблемы.это было при получении html-страницы и чтении потока.Я изменил кодировку по умолчанию на UTF 8, и теперь все в порядке.Еще раз спасибо.
Dim reader As StreamReader = New StreamReader(responseStream, Encoding.Default)
returnContent = reader.ReadToEnd()