Мне удалось найти решение, надеясь, что оно кому-нибудь поможет.
Я читаю каталог с файлами jsonl.То, что я получаю, это фрейм данных, где первый столбец - это значение строки, а второй столбец - это имя файла, откуда взята эта строка:
from pyspark.sql.functions import input_file_name
.......
read_files = spark.sparkContext.textFile(some_dir_with_files)
lines = read_files.map(lambda x: x.encode("ascii", "ignore"))
json_data = lines.map(lambda line: json.loads(str(line)))
df = spark.createDataFrame(json_data, StringType())
df_with_file_names = df.withColumn("file_name", input_file_name())
return df_with_file_names