Kafka file stream connect и потоковый API - PullRequest
0 голосов
/ 25 апреля 2020

работаю над соединителем файлового потока, у меня в файле более десяти миллионов записей (это не один файл, его раздел по учетной записи #). Я должен загрузить эти файлы в topi c и обновить свои потоки. прошел через отдельные потоки, у меня следующий вопрос, и мне нужна помощь для достижения.

  1. посмотрите на набор данных, у меня есть две учетные записи #, каждая учетная запись имеет 5 строк, мне нужно было бы сгруппировать их в две строки и ввести ключ acctNbr.

как написать исходный соединитель для чтения файла и получения логики группировки c?

мои брокеры работают на Linux машинах X, Y, Z .. после разработки исходного соединителя, мой файл JAR должен быть развернут на каждом брокере (если я начну работать в распределенном брокере)?

У меня есть только 30-минутное окно для извлечения файла в топи c? Какие есть параметры для настройки logi c, чтобы закрыть мое рабочее окно? К вашему сведению, эта топи c будет иметь более 50 разделов и настроено 3 брокера.

Набор данных:

{"acctNbr":"1234567","secNbr":"AAPL","date":"2010-01-01","currentPrice":"10","availQnty":"10"}
{"acctNbr":"1234567","secNbr":"AAPL","date":"2010-01-02","currentPrice":"10","availQnty":"10"}
{"acctNbr":"1234567","secNbr":"AAPL","date":"2010-01-03","currentPrice":"10","availQnty":"10"}
{"acctNbr":"1234567","secNbr":"AAPL","date":"2010-01-04","currentPrice":"10","availQnty":"10"}
{"acctNbr":"1234567","secNbr":"AAPL","date":"2010-01-05","currentPrice":"10","availQnty":"10"}
{"acctNbr":"abc3355","secNbr":"AAPL","date":"2010-01-01","currentPrice":"10","availQnty":"10"}
{"acctNbr":"abc3355","secNbr":"AAPL","date":"2010-01-02","currentPrice":"10","availQnty":"10"}
{"acctNbr":"abc3355","secNbr":"AAPL","date":"2010-01-03","currentPrice":"10","availQnty":"10"}
{"acctNbr":"abc3355","secNbr":"AAPL","date":"2010-01-04","currentPrice":"10","availQnty":"10"}
{"acctNbr":"abc3355","secNbr":"AAPL","date":"2010-01-05","currentPrice":"10","availQnty":"10"}

1 Ответ

0 голосов
/ 27 апреля 2020

как написать исходный соединитель для чтения файла и получения логики группировки c

Соединитель FileSream не может этого сделать и не предназначен для такой цели, кроме Пример написания собственных разъемов. Другими словами, не использовать в производстве.

При этом вы можете использовать альтернативные решения, такие как Flume, Filebeat, Fluentd, NiFi, Streamsets и т. Д. c и др. c, чтобы glob ваши пути к файлам, а затем отправить все записывает построчно в кафку топи c.

после разработки исходного коннектора, мой jar-файл должен быть развернут в каждом брокере

Запрещается запускать Connect на любом брокере. Серверы Connect называются working .

есть только 30-минутное окно для извлечения файла перетаскивания в топи c?

Непонятно, откуда пришло это число. Любой из вышеперечисленных методов отслеживает все новые файлы без какого-либо определенного окна.

...