Question

)

У меня есть CSV-файл, который выглядит так:

Blockquote

ID контента
Текст 1 А вот и текст
Текст 2 Ей также приходит текст
Текст 3 И так далее, и так далее ...

Blockquote

Я хочу написать код для перебора каждой строки этой таблицы CSV. Затем подсчитать количество токенов в каждой строке (например, каждый текст) Затем создайте новую CSV-таблицу в качестве вывода, в которой должен быть только Text-ID с количеством токенов в этом тексте.

Blockquote

Выходной CSV-файл должен выглядеть следующим образом:

ID NumberOfTokens
Текст 1 8
Текст 2 12
Текст 3 15

Blockquote

Пока у меня есть этот код:

import csv
from textblob_de import TextBlobDE as TextBlob

data = open('myInputFile.csv', encoding="utf-8").readlines()

blob = TextBlob(str(data))


csv_file = open('myOutputFile.csv', 'w', encoding="utf-8")
csv_writer = csv.writer(csv_file)
# Define the Headers of the CSV
csv_writer.writerow(['Text-ID', 'Tokens])


def numOfWordTokens(document):

    myList = []

    for eachRow in document:
        myList.append(eachRow)
        return "\n".join(myList)

        #return eachRow
        #print(eachRow)

        # Count Tokens
        #countTokens = len(wordTokens2.split()) # Output: integer
        #return countTokens
        #myList.append(str(countTokens))


wordTokens = numOfWordTokens(data)

# Write Content in the CSV-Table Rows
csv_writer.writerow([wordTokens])
csv_file.close()

Итак, прежде всего, у меня следующий вопрос?

Когда я возвращаю eachRow, я не получаю Вывод в Оболочке, а только 1. строку в качестве вывода в новом созданном CSV-файле. Когда я выполняю печать (eachRow), я действительно печатаю каждую строку как «Вывод в оболочке», но мой новый созданный CSV-файл просто пуст!

Так что это первая часть, с которой у меня возникли проблемы, поэтому я не могу продолжать переходить к той части, где я фактически считаю токены в каждой строке и записываю количество токенов в новый CSV-файл.

sid802 · Answer 1 · 24 июня 2018

С пандами это очень просто, но если вы предпочитаете не использовать другие модули, это тоже хорошо :) Я добавил код для обеих панд и для ручной итерации по данным:

import pandas as pd
import csv


def main_pandas(path_to_csv: str, target_path: str):
    df = pd.read_csv(path_to_csv, encoding='utf-8')
    df['tokens'] = df['Content'].apply(lambda x: len(x.split()))
    sub_df = df[['ID', 'tokens']]
    sub_df.to_csv(target_path, index=False)


def main_manual(path_to_csv: str, target_path: str):
    with open(path_to_csv, 'r') as r_fp:
        csv_reader = csv.reader(r_fp)
        next(csv_reader)  # Skip headers
        with open(target_path, 'w') as w_fp:
            csv_writer = csv.writer(w_fp)
            csv_writer.writerow(['Text ID', 'tokens'])  # Write headers
            for line in csv_reader:
                text_id, text_content = line
                csv_writer.writerow([text_id, len(text_content.split())])


if __name__ == '__main__':
    main_manual('text.csv', 'tokens.csv')

Python: итерация по каждой строке CSV, подсчет токенов в каждой строке, создание нового CSV с количеством токенов для каждой строки исходного CSV

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python: итерация по каждой строке CSV, подсчет токенов в каждой строке, создание нового CSV с количеством токенов для каждой строки исходного CSV

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов