Я пытаюсь очистить данные CSV для моего проекта, которые содержат новости и ненужные вещи (например, код JavaScript).Это набор данных для нашего проекта, и моя работа состоит в том, чтобы фильтровать его и удалять ненужные символы.
Что я хочу сделать, это найти индекс символа внутри строки / столбца и, если он там есть, удалить символы после него (включая сам символ).
Я написал код для проверки индекса и могу заменить точный символ, но проблема в том, что я хочу удалить все символы после этого символа.
Я попытался реализовать библиотеку Pandasчтобы получить данные и заменить точную строку.Но, как видно из кода, он просто заменяет точный символ на пустой.Я хочу найти индекс char (скажем, «окно») и удалить символы, которые идут после символа «window» внутри строки.
import pandas as pd
import numpy as np
import csv
pathtofile = "t1.csv"
data = pd.read_csv(pathtofile, encoding='utf-8' ,index_col=0)
print(type(data)) #which gives dataframe as output
print(data.head()) #prints out [id, contetn, date]
sub = 'window._ttzi' #its char array that i'm searching using find()
data["Indexes"]= data["contetn"].str.find(sub)
print(data) #prints the csv file with additional index
data = data.replace('window._ttzi', '')
#data.to_csv("t1edited.csv", encoding = 'utf-8')
print(data)