Я пытаюсь извлечь код из текстового корпуса.
У меня сейчас что-то вроде этого
<code>input = pd.DataFrame([[0, "Line 0 some text before <pre> line 0 some code
строка 0, некоторый текст после "], \ [1," Строка 1, некоторый текст перед
line 1 some code
строка 1 некоторый текст после "]], столбцы = [" id "," body "]) # result = SomeFunctions (input) result = pd.DataFrame ([[0," строка 0 некоторый текст перед строкой 0 некоторая текст после "," строка 0, некоторый код "], \ [1," строка 0, некоторый текст до строки 1, некоторый текст после "," строка 1, некоторый код "]], columns = [" id "," text "," код "])
(результат, который я хочу получить, SomeFunctions - это то, что мне нужно). Каков наилучший способ сделать это? У меня есть корпус 3Gb, содержащий ~ 1,2 млн записей.