Кодировка корейского для сканирования с помощью - PullRequest
2 голосов
/ 29 января 2020

Я пытаюсь сканировать веб-сайт с библиотекой got .

Я пишу простой код.

import got from 'got';

async function test(){
  const data = await got('https://dhlottery.co.kr/store.do?method=topStore&pageGubun=L645', { encoding: 'utf8'});
  console.log(data.body);

}
test();

это работает, но не отображает корейские слова должным образом.

некоторая часть вывода здесь.

<div class="foot_txt2">
  <p>Copyright (c) 2018 ��������ȸ&amp;���ູ��. All rights reserved</p>
  <p>�� Ȩ�������� �Խõ� �̸��� �ּҰ� �ڵ� �����Ǵ� ���� �ź��ϸ�, �̸� ���ݽ� ������Ÿ����� ���� ó������ �����Ͽ� �ֽñ� �ٶ��ϴ�.</p>
  <p class="f_blue2">û�ҳ��� ������ �����ϰų� ��÷���� ������ �� �����ϴ�.</p>
</div>

Все упавшие слова - корейский.

Я просто хочу знать, почему это происходит, и как я могу это решить.

1 Ответ

1 голос
/ 29 января 2020

Я не использовал этот пакет ранее и не проверял ниже, но, надеюсь, это может решить вашу проблему.

В вашем примере ваша определяющая кодировка utf8, однако, веб-сайт использует кодировку EUC-KR. ..

page encoding

Поэтому, если вы обновите свойство encoding по вашему запросу, это может решить проблему.

import got from 'got';

async function test(){
  const url = 'https://dhlottery.co.kr/store.do?method=topStore&pageGubun=L645';

  const data = await got(url, {
    encoding: 'EUC-KR'
  });

  console.log(data.body);

}
test();
...