Я хочу импортировать следующую часть (a) следующих файлов HTML (b) в WDS.
(a) <meta content="https://qiita.com/xxx/yyy/zzz" property="og:url" />
Я создал следующий файл конфигурации WDS (c) со следующей ссылкой применили его к среде и импортировали следующие HTML-файлы (b).
https://console.bluemix.net/docs/services/discovery/custom-config.html#keep_content
Но я не смог найти часть (a), нив результате «Просмотр схемы данных», а также в результате API «Проверка конфигурации на документе» (см. ниже).
https://www.ibm.com/watson/developercloud/discovery/api/v1/curl.html?curl#test-your-configuration-on-a-document-api
Итак, у меня есть 3 следующих вопроса (1) (2) (3).
Скажите, пожалуйста, правильный способ создания файла конфигурации, если следующий (c) неверный?
Где часть (а) появляется в результате «Просмотр схемы данных», если следующий файл конфигурации (с) является правильным?(Добавлено как часть extract_metadata? Является ли имя параметра og: url?)
- Импортируется ли часть (a) для каждого разделенного документа, если прикрепленный файл конфигурации (c) правильный?
(b) Файлы HTML:
(c) Файл конфигурации WDS:
{
"configuration_id": "cbcec10a-f241-4fb5-a86d-15e1e732495d",
"name": "HTML_conf_0914_2",
"description": null,
"created": "2018-08-03T00:08:52.320Z",
"updated": "2018-08-13T01:42:20.763Z",
"conversions": {
"pdf": {
"heading": {
"fonts": [
{
"level": 1,
"min_size": 24,
"max_size": 80
},
{
"level": 2,
"min_size": 18,
"max_size": 24,
"bold": false,
"italic": false
},
{
"level": 2,
"min_size": 18,
"max_size": 24,
"bold": true
},
{
"level": 3,
"min_size": 13,
"max_size": 18,
"bold": false,
"italic": false
},
{
"level": 3,
"min_size": 13,
"max_size": 18,
"bold": true
},
{
"level": 4,
"min_size": 11,
"max_size": 13,
"bold": false,
"italic": false
}
]
}
},
"word": {
"heading": {
"fonts": [
{
"level": 1,
"min_size": 24,
"bold": false,
"italic": false
},
{
"level": 2,
"min_size": 18,
"max_size": 23,
"bold": true,
"italic": false
},
{
"level": 3,
"min_size": 14,
"max_size": 17,
"bold": false,
"italic": false
},
{
"level": 4,
"min_size": 13,
"max_size": 13,
"bold": true,
"italic": false
}
],
"styles": [
{
"level": 1,
"names": [
"pullout heading",
"pulloutheading",
"header"
]
},
{
"level": 2,
"names": [
"subtitle"
]
}
]
}
},
"html": {
"exclude_tags_completely": [
"script",
"sup"
],
"exclude_tags_keep_content": [
"font",
"em",
"span"
],
"exclude_content": {
"xpaths": [
"//meta[@name]",
"//meta[@property!='og:url']"
]
},
"keep_content": {
"xpaths": [
]
},
"exclude_tag_attributes": [
"EVENT_ACTIONS"
]
},
"json_normalizations": [],
"segment": {
"enabled": true,
"selector_tags": [
"h1",
"h2",
"h3"
]
}
},
"enrichments": [
{
"enrichment": "natural_language_understanding",
"source_field": "text",
"destination_field": "enriched_text",
"options": {
"features": {
"keywords": {},
"entities": {
"sentiment": true,
"emotion": false,
"limit": 50
},
"sentiment": {
"document": true
},
"categories": {},
"relations": {},
"concepts": {
"limit": 8
},
"semantic_roles": {}
}
}
}
],
"normalizations": []
}