ПУТЬ - Если вы «калечите» свои японские иероглифы, используя JSoup, как сейчас ... ВЫ МОЖЕТЕ ДОБАВИТЬ ЭТУ ЛИНИЮ (если вы выводите HTML) ...
ИскаженоДля китайских иероглифов, или японских кандзи, требуется эта строка в заголовке HTML:
<META http-equiv="Content-Type" content="text/html; charset=utf-8" />
И вы должны иметь возможность читать:
Я только что закончил пакет HTML Parse.Я никогда не был в состоянии использовать JSoup.Я отправил это вчера.Я работал над этим больше года.Я разбираю китайские иероглифы - не японские, и знаю все о UTF-8.
Скачайте его: http://developer.torello.directory/JavaHTML/index.html
Есть документация.
Мои сайты:
Они скребут новости, а я 'я собираю их каждый день.
Имея у меня файл "JavaHTML.jar" и документацию, доступную по ссылке выше, анализировать и даже конвертировать файлы HTML довольно легко.Я использую их для очистки иностранных новостных сайтов - чтобы люди могли читать статьи из Азии - где все эти компьютеры, которые мы используем, производятся каждый день ....
Я не знаю, нравится ли Дональд Трампэто все же.
import Torello.HTML.*;
import Torello.Java.*;
import java.util.*;
import java.io.*;
public class Scrape
{
public static void main(String[] argv) throws IOException
{
Vector<HTMLNode> page = HTMLPage.getPageTokens(new java.net.URL("abc.html"), false);
Iterator<Integer> i = TagNodeFind.iterator(page, TC.OpeningTags, "span");
while (i.hasNext())
{
int pos = i.next().intValue();
System.out.println(page.elementAt(pos)); // <SPAN ID="id_1">
System.out.println(page.elementAt(pos + 1)); // The text that follows
String replacementText = "Your Text Replacement Here...[<% === %/] or whatever.";
page.setElementAt(new TextNode(replacementText), pos + 1);
System.out.println("Replaced with: " + replacementText);
System.out.println();
}
// Print the new HTML page from the old page-vector..
StringBuffer out = new StringBuffer();
for (HTMLNode n : page) out.append(n.str);
FileRW.writeFile(out, "New HTML Page.html");
}
}