Я не знаю ни одного упакованного, готового к работе корпуса документов HTML / JavaScript (хотя, похоже, это делают некоторые другие SO). Если бы я был в вашей ситуации, я бы построил свой собственный корпус (вы Вы узнаете, что это актуально, и вы будете точно знать, с чем имеете дело).
Чтобы создать свой собственный, вы можете поймать один из сканеров с открытым исходным кодом или просто использовать wget рекурсивно:
wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log
Хотите расширить вышеперечисленное? Сценарий чего-то, что захватывает верхний n списков сайтов от Google, и вставляет эти URL в приведенную выше команду wget.