Очистите текст гиперссылки во фрейме данных и добавьте его в строку в CSV - PullRequest
0 голосов
/ 07 мая 2018

У меня есть столбец гиперссылок в кадре данных, и мне нужно извлечь текст для сентиментального анализа. Я могу прочитать текст, но я не могу продолжить, повторяя процесс и добавляя его в файл, - это то, что я ищу.

import urllib.request
import requests
import csv
from bs4 import BeautifulSoup

quote_page = 'https://www.sec.gov/Archives/edgar/data/3662/0000950170-98-000413.txt'
page = urllib.request.urlopen(quote_page)
soup = BeautifulSoup(page,'html.parser')
name_box = soup.find
print(name_box)
with open('index1.csv', 'a') as csv_file:
  writer = csv.writer(csv_file)
  writer.writerows([name_box])

Теперь, когда я выполнил это, я получил CSV, но текст не был в ряду. Итак, что делать и как это сделать для каждой ссылки в кадре данных.

1 Ответ

0 голосов
/ 07 мая 2018

Мы можем записать все данные в .txt для анализа.

import urllib.request
import requests
import csv
from bs4 import BeautifulSoup
from time import sleep

quote_page = 'https://www.sec.gov/Archives/edgar/data/3662/0000950170-98-000413.txt'
page = urllib.request.urlopen(quote_page)
soup = BeautifulSoup(page,'html.parser')
name_box = soup.find


with open('myfile1.txt', 'w+') as f:

    the_text = str(name_box)
    file = f.write(the_text)

Чтобы записать его в CSV, где каждая строка - просто строка в тексте.

# if you really want to write it as a csv
with open('index1.csv', 'a+') as f:
    mydoc = csv.writer(f)
    for i in the_text.split('\n'):
        mydoc.writerow([i])
...