Как импортировать определенные части файла HTML в WDS? - PullRequest
0 голосов
/ 09 октября 2018

Я хочу импортировать следующую часть (a) следующих файлов HTML (b) в WDS.

(a) <meta content="https://qiita.com/xxx/yyy/zzz" property="og:url" />

Я создал следующий файл конфигурации WDS (c) со следующей ссылкой применили его к среде и импортировали следующие HTML-файлы (b).

https://console.bluemix.net/docs/services/discovery/custom-config.html#keep_content

Но я не смог найти часть (a), нив результате «Просмотр схемы данных», а также в результате API «Проверка конфигурации на документе» (см. ниже).

https://www.ibm.com/watson/developercloud/discovery/api/v1/curl.html?curl#test-your-configuration-on-a-document-api

Итак, у меня есть 3 следующих вопроса (1) (2) (3).

  1. Скажите, пожалуйста, правильный способ создания файла конфигурации, если следующий (c) неверный?

  2. Где часть (а) появляется в результате «Просмотр схемы данных», если следующий файл конфигурации (с) является правильным?(Добавлено как часть extract_metadata? Является ли имя параметра og: url?)

  3. Импортируется ли часть (a) для каждого разделенного документа, если прикрепленный файл конфигурации (c) правильный?

(b) Файлы HTML:

(c) Файл конфигурации WDS:

{
  "configuration_id": "cbcec10a-f241-4fb5-a86d-15e1e732495d",
  "name": "HTML_conf_0914_2",
  "description": null,
  "created": "2018-08-03T00:08:52.320Z",
  "updated": "2018-08-13T01:42:20.763Z",
  "conversions": {
    "pdf": {
      "heading": {
        "fonts": [
          {
            "level": 1,
            "min_size": 24,
            "max_size": 80
          },
          {
            "level": 2,
            "min_size": 18,
            "max_size": 24,
            "bold": false,
            "italic": false
          },
          {
            "level": 2,
            "min_size": 18,
            "max_size": 24,
            "bold": true
          },
          {
            "level": 3,
            "min_size": 13,
            "max_size": 18,
            "bold": false,
            "italic": false
          },
          {
            "level": 3,
            "min_size": 13,
            "max_size": 18,
            "bold": true
          },
          {
            "level": 4,
            "min_size": 11,
            "max_size": 13,
            "bold": false,
            "italic": false
          }
        ]
      }
    },
    "word": {
      "heading": {
        "fonts": [
          {
            "level": 1,
            "min_size": 24,
            "bold": false,
            "italic": false
          },
          {
            "level": 2,
            "min_size": 18,
            "max_size": 23,
            "bold": true,
            "italic": false
          },
          {
            "level": 3,
            "min_size": 14,
            "max_size": 17,
            "bold": false,
            "italic": false
          },
          {
            "level": 4,
            "min_size": 13,
            "max_size": 13,
            "bold": true,
            "italic": false
          }
        ],
        "styles": [
          {
            "level": 1,
            "names": [
              "pullout heading",
              "pulloutheading",
              "header"
            ]
          },
          {
            "level": 2,
            "names": [
              "subtitle"
            ]
          }
        ]
      }
    },
    "html": {
      "exclude_tags_completely": [
        "script",
        "sup"
      ],
      "exclude_tags_keep_content": [
        "font",
        "em",
        "span"
      ],
      "exclude_content": {
        "xpaths": [
          "//meta[@name]",
          "//meta[@property!='og:url']"
        ]
      },
      "keep_content": {
        "xpaths": [
        ]
      },
      "exclude_tag_attributes": [
        "EVENT_ACTIONS"
      ]
    },
    "json_normalizations": [],
    "segment": {
      "enabled": true,
      "selector_tags": [
        "h1",
        "h2",
        "h3"
      ]
    }
  },
  "enrichments": [
    {
      "enrichment": "natural_language_understanding",
      "source_field": "text",
      "destination_field": "enriched_text",
      "options": {
        "features": {
          "keywords": {},
          "entities": {
            "sentiment": true,
            "emotion": false,
            "limit": 50
          },
          "sentiment": {
            "document": true
          },
          "categories": {},
          "relations": {},
          "concepts": {
            "limit": 8
          },
          "semantic_roles": {}
        }
      }
    }
  ],
  "normalizations": []
}

1 Ответ

0 голосов
/ 09 октября 2018

На данный момент служба Watson Discovery извлекает из раздела HTML <head> только три следующих поля метаданных: публикация_дата , автор и заголовок .

Ожидается, что они будут в вашем HTML-файле, как показано в следующем примере:

<html>
  <head>
   <meta name="author" content="Lulu">
   <meta name="publicationdate" content="2015-12-04">
   <title>Title of the document</title>
  </head>
 <body>
  content of the document
 </body>
</html>

Как только эти три поля будут извлечены в процессе приема, они могут быть запрошены в extracted_metadataраздел.Ниже показан пример того, где в результате запроса будут найдены эти поля:

{
    "extracted_metadata": {
        "publicationdate": "2015-12-04",
        "title": "Title of the document",
        "author": "Lulu",
        "filename": "example.html",
        "file_type": "html",
        "sha1": "256f2c4161a1b13528513a3d4abdf00b6ac80054"
    },
    "html": "<?xml version='1.0' encoding='UTF-8' standalone='yes'?><html> ...", 
    "text": "content of the document",
}

К сожалению, извлечение полей метаданных других типов из раздела HTML <head> в настоящее время не поддерживается.

Существует альтернативный способ ввода пользовательских полей путем передачи части метаданных в вашем запросе POST.Используя curl, вы можете сделать это, выполнив команду вида:

curl -u ${WDS_USERNAME}:${WDS_PASSWORD} \
-F "file=@YOUR_FILE.html" \
-F "metadata=@YOUR_METADATA.json" \
-X POST "https://gateway.watsonplatform.net/discovery/api/v1/environments/{environment_id}/collections/{collection_id}/documents?version=2018-03-05"

См. Параметр metadata в документации по адресу: https://www.ibm.com/watson/developercloud/discovery/api/v1/curl.html?curl#add-document

...