Как получить чистую стенограмму YouTube - PullRequest
0 голосов
/ 12 февраля 2019

Я пытаюсь получить данные о видео-субтитрах, для этого я использую downsub.

Нет способа найти чистые субтитры без HTML-тегов и временных меток, не перенося их в блокнот ивыполнение процедуры замены в зависимости от ситуации.

Это громоздко, и я хочу автоматизировать процесс очистки с помощью python.

https://colab.research.google.com/drive/1bbgbjbGF9bjzz3FISMfycSW4iHCj3pxk

Я ищу действительно очень простое решениечто любой может постичь только базовые знания Python.Я открыт для использования API, если это необходимо, но если это займет много времени, ручная очистка все равно займет всего несколько минут, если это будет сделано быстро.Автоматизация была бы хороша, хотя;уменьшит головную больУчитывая это, пожалуйста, предложите хорошее и приятное решение.

1 Ответ

0 голосов
/ 12 февраля 2019

внесли несколько изменений в замену, но это должно сделать это:

import requests

down_url = "https://downsub.com/index.php?title=5+Am+Club+by+Robin+Sharma+%7C%7C+Review%2C+Takeaways+and+Discussion&url=ujcNaH9TaDy8U56iM_1ZReCKk1h83rjIvE7i146GYHUNIwZwKM02q9oUSieWkZ47Tw2OOJgFBvlU0he-sxkGIASxRnTcdMwE1QrZ3CAsyI5gLS6A0ovxFMmFJx5EAC5wtwexy0R1vzZfNdt6dBse3H-vOhq8xnqL-LdhSbiePZ5E_KEYrYuFzPvF2JpEARuCOA6XlqQQzV7iooSEObb9AejBkNj_uHhNnO0RVJ0E-pVAJjWLdjUnIdXGPkJUsd5Ceg5qeTVKjtBQhWyf6qCuwE_BAezDSDAF6DgLCFRnwc2Uc9onnorwYncvzIge1soln3FnkifpyHiPB3cK0h0f5yMUy-DJHervcQXQEHdUf-npkCzRgeba283yoN7orAovE0iaIihvFMectGYKT27eXLdrLdQQ3sUcWFqRB6SjZ8g"

data = requests.get(down_url).text


clean = ['<font color="#CCCCCC">',
         '<font color="#E5E5E5">',
         '<font color="#EEE">',
         '</font>',
         0,1,2,3,4,5,6,7,8,9,
         '::, --> ::,',]


for s in clean:
    data = data.replace(str(s), '')

data = data.replace('\n\n\n\n', '\n')

print(data)
...