Как извлечь данные из гиперссылки в файл Excel? - PullRequest
0 голосов
/ 17 июня 2019

У меня есть несколько гиперссылок, хранящихся в локальном файле Excel.Все они в одной колонке.Например,

| A  
| ----------------------------------| 
| http://vocab.getty.edu/tgn/8699749|
| http://vocab.getty.edu/tgn/8704811|
| http://vocab.getty.edu/tgn/8702341|
| http://vocab.getty.edu/tgn/1063874|
| http://vocab.getty.edu/tgn/1063880|
| http://vocab.getty.edu/tgn/7032551|
|-----------------------------------|

Каждая ссылка указывает на страницу, с которой я мог бы извлечь информацию, связанную с полем xl: prefLabel, и сохранить результат в столбце B

Может ли Openpyxl быть решением?

Ожидаемый результат должен быть примерно таким же, как

| A                                 | B                      |
| ----------------------------------| ------------------------
| http://vocab.getty.edu/tgn/8699749| tgn_term:1005671253-fr |
| http://vocab.getty.edu/tgn/8704811| tgn_term:1005683546-de | 
| http://vocab.getty.edu/tgn/8702341| tgn_term:1005684314    |
| http://vocab.getty.edu/tgn/1063874| tgn_term:64447         |
| http://vocab.getty.edu/tgn/1063880| tgn_term:64453         |
| http://vocab.getty.edu/tgn/7032551| tgn_term:1001213640    |
|-----------------------------------|------------------------|

1 Ответ

0 голосов
/ 17 июня 2019

Быстрое решение - использовать нарезку панд:

import pandas as pd
import urllib.request

all_hyperlinks = pd.read_excel(path_to_excel_file, index_col=None, header=None)
first_hl = all_hyperlinks.loc[0, 0] # Get the first hype link
contents = request.urlopen(first_hl).read()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...