Извлекать открытый текст из подписи YouTube к Webvtt - PullRequest
0 голосов
/ 18 мая 2018

Используя youtube-dl --write-auto-sub, мы получаем файл, подобный следующему:

WEBVTT
Kind: captions
Language: en
Style:
::cue(c.colorCCCCCC) { color: rgb(204,204,204);
 }
::cue(c.colorE5E5E5) { color: rgb(229,229,229);
 }
##

00:00:00.030 --> 00:00:02.619 align:start position:0%

<c.colorE5E5E5>because<00:00:00.630><c> then</c><00:00:00.780><c> media</c><00:00:01.079><c> tries</c><00:00:01.380><c> to</c><00:00:01.589><c> sell</c><00:00:01.800><c> chips</c></c><c.colorCCCCCC><00:00:02.129><c> a</c></c>

00:00:02.619 --> 00:00:02.629 align:start position:0%
<c.colorE5E5E5>because then media tries to sell chips</c><c.colorCCCCCC> a
 </c>

00:00:02.629 --> 00:00:05.869 align:start position:0%
<c.colorE5E5E5>because then media tries to sell chips</c><c.colorCCCCCC> a
lot<00:00:03.629><c> of</c><00:00:03.870><c> chips</c></c><c.colorE5E5E5><00:00:04.200><c> into</c></c><c.colorCCCCCC><00:00:04.560><c> the</c></c><c.colorE5E5E5><00:00:04.890><c> Android</c><00:00:05.279><c> Market</c><00:00:05.700><c> and</c></c>

00:00:05.869 --> 00:00:05.879 align:start position:0%
lot of chips<c.colorE5E5E5> into</c><c.colorCCCCCC> the</c><c.colorE5E5E5> Android Market and
 </c>

00:00:05.879 --> 00:00:08.900 align:start position:0%
lot of chips<c.colorE5E5E5> into</c><c.colorCCCCCC> the</c><c.colorE5E5E5> Android Market and
NVIDIA</c><c.colorCCCCCC><00:00:06.600><c> has</c></c><c.colorE5E5E5><00:00:06.839><c> been</c><00:00:07.109><c> the</c><00:00:07.350><c> single</c><00:00:07.980><c> worst</c><00:00:08.280><c> company</c></c>

00:00:08.900 --> 00:00:08.910 align:start position:0%
NVIDIA<c.colorCCCCCC> has</c><c.colorE5E5E5> been the single worst company
 </c>

00:00:08.910 --> 00:00:14.420 align:start position:0%
NVIDIA<c.colorCCCCCC> has</c><c.colorE5E5E5> been the single worst company
we've<00:00:09.090><c> ever</c><00:00:09.389><c> dealt</c><00:00:09.719><c> with</c><00:00:09.870><c> so</c><00:00:10.620><c> Nvidia</c><00:00:11.090><c> fuck</c><00:00:12.090><c> you</c></c>

webvtt-py может использоваться для извлечения информации о цвете и времени, но почему Youtube генерирует повторные подписи?И как лучше всего получить подпись в виде открытого текста?Я пытался игнорировать все заголовки длиной 0,010 секунд, но все еще есть перекрывающиеся строки (то есть текст в конце одной строки перекрывается с текстом в начале следующей строки).

...