Как получить конкретное количество слов файла из хранилища AWS S3 с помощью лямбды? - PullRequest
0 голосов
/ 09 января 2019

В моем сценарии я пытаюсь получить определенный сохраненный текст AWS S3 file word count и его language detection с использованием AWS lambda кода Python. Здесь, ниже код, который я пытаюсь. Он предоставляет счетчик строк, но я не знаю, как узнать количество слов и определение языка. Пожалуйста, предоставьте некоторую идею для определения количества слов в файле и определения языка.

Я пытался подсчитать количество строк

import boto3

def lambda_handler(event, context):

    # create the s3 resource
    s3 = boto3.resource('s3')

    # get the file object
    obj = s3.Object('bucket name', 'sample.txt')

    # read the file contents in memory
    file_contents = obj.get()["Body"].read()

    # print the occurrences of the new line character to get the number of lines
    # print file_contents.count('\n')
    # TODO implement
    return {
        'Line Count': file_contents.count('\n')
    }

Текущий ответ: { «Количество строк»: 48, }

Ожидаемый ответ: { «Количество строк»: 48, «Количество слов»::?, // Здесь я хочу показать количество слов «Язык»:? // Здесь название языка }

1 Ответ

0 голосов
/ 09 января 2019

Чтобы получить количество слов, вы можете попробовать любую из перечисленных здесь вещей: Как посчитать количество слов в предложении, игнорируя цифры, знаки препинания и пробелы?

Чтобы определить язык, вы можете попробовать одну из следующих вещей: NLTK и определение языка

К сожалению, ваш вопрос довольно широкий. Кроме того, задача определения языка текста довольно сложна для понимания. Получить подсчет слов легко, но многое зависит от того, что вы собираетесь определить как слово.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...