WikiDer > Апач Кафка
Оригинальный автор (ы) | |
---|---|
Разработчики) | Фонд программного обеспечения Apache |
изначальный выпуск | Январь 2011 г.[2] |
Стабильный выпуск | 2.6.0 / 3 августа 2020 г.[3] |
Репозиторий | |
Написано в | Scala, Ява |
Операционная система | Кроссплатформенность |
Тип | Потоковая обработка, Брокер сообщений |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | кафка |
Апач Кафка является Открытый исходный код потоковая обработка программная платформа, разработанная Фонд программного обеспечения Apache, написано в Scala и Ява. Проект направлен на создание единой платформы с высокой пропускной способностью и малой задержкой для обработки потоков данных в реальном времени. Kafka может подключаться к внешним системам (для импорта / экспорта данных) через Kafka Connect и предоставляет потоки Kafka Streams, обработку потоков Java. библиотека.Kafka использует двоичный TCPпротокол, оптимизированный для повышения эффективности и основанный на абстракции «набор сообщений», которая естественным образом группирует сообщения вместе, чтобы уменьшить накладные расходы на передачу данных по сети. Это «приводит к большим сетевым пакетам, большим последовательным операциям с диском, непрерывным блокам памяти [...], что позволяет Kafka превращать прерывистый поток случайных записей сообщений в линейные записи».[4]
История
Kafka был первоначально разработан LinkedIn, а затем был открыт исходный код в начале 2011 года. Инкубатор Apache произошел 23 октября 2012 года. Джей Крепс назвал программу в честь автора Франц Кафка потому что это «система, оптимизированная для письма», и ему понравились работы Кафки.[5]
Приложения
Apache Kafka основан на журнал фиксации, и он позволяет пользователям подписываться на него и публиковать данные в любом количестве систем или приложений реального времени. Примеры приложений включают управление подбором пассажиров и водителей на Убер, предоставляя аналитику в реальном времени и профилактическое обслуживание за Бритиш Газ'Умный дом и предоставляет множество услуг в реальном времени по всей сети LinkedIn.[6]
Архитектура
Kafka хранит сообщения типа "ключ-значение", поступающие от произвольно большого числа процессов, называемых производители. Данные можно разделить на разные «разделы» в разных «темах». Внутри раздела сообщения строго упорядочены по смещению (позиции сообщения в разделе), индексируются и сохраняются вместе с отметкой времени. Другие процессы, называемые «потребителями», могут читать сообщения из разделов. Для потоковой обработки Kafka предлагает Streams API, который позволяет писать приложения Java, которые потребляют данные из Kafka и записывают результаты обратно в Kafka. Apache Kafka также работает с внешними системами обработки потоков, такими как Apache Apex, Apache Flink, Apache Spark, Apache Storm и Apache NiFi.
Kafka работает в кластере из одного или нескольких серверов (называемых брокерами), и разделы всех тем распределены по узлам кластера. Кроме того, разделы реплицируются на нескольких брокеров. Эта архитектура позволяет Kafka доставлять массивные потоки сообщений отказоустойчивым способом и позволила ему заменить некоторые традиционные системы обмена сообщениями, такие как Служба сообщений Java (JMS), Расширенный протокол очереди сообщений (AMQP) и т. Д. Начиная с версии 0.11.0.0, Kafka предлагает транзакционные записи, которые обеспечивают однократную потоковую обработку с использованием Streams API.
Kafka поддерживает два типа тем: обычные и сжатые. Обычные темы можно настроить с указанием времени хранения или ограничения пространства. Если есть записи, которые старше указанного времени хранения или если для раздела превышено ограничение на пространство, Kafka может удалить старые данные, чтобы освободить место для хранения. По умолчанию темы настроены со сроком хранения 7 дней, но также можно хранить данные неограниченное время. Для сжатых тем записи не истекают в зависимости от ограничений по времени или пространству. Вместо этого Kafka рассматривает более поздние сообщения как обновления более старого сообщения с тем же ключом и гарантирует, что никогда не удалит последнее сообщение для каждого ключа. Пользователи могут полностью удалить сообщения, написав так называемое сообщение-захоронение с нулевым значением для определенного ключа.
В Kafka есть пять основных API:
- API производителя - Разрешает приложению публиковать потоки записей.
- Потребительский API - Разрешает приложению подписываться на темы и обрабатывать потоки записей.
- Connector API - Выполняет повторно используемые API производителя и потребителя, которые могут связывать темы с существующими приложениями.
- Streams API - Этот API преобразует входные потоки в выходные и выдает результат.
- Admin API - используется для управления темами Kafka, брокерами и другими объектами Kafka.
API-интерфейсы потребителя и производителя основаны на протоколе обмена сообщениями Kafka и предлагают эталонную реализацию для клиентов-потребителей и производителей Kafka на Java. Базовый протокол обмена сообщениями - это двоичный протокол которые разработчики могут использовать для написания своих собственных клиентов-потребителей или производителей на любом языке программирования. Это разблокирует Кафку от Виртуальная машина Java (JVM) экосистема. Список доступных клиентов, отличных от Java, содержится в вики-странице Apache Kafka.
Kafka API
Подключить API
Kafka Connect (или Connect API) - это платформа для импорта / экспорта данных из / в другие системы. Он был добавлен в выпуск Kafka 0.9.0.0 и внутренне использует API-интерфейс производителя и потребителя. Сама платформа Connect выполняет так называемые «соединители», которые реализуют фактическую логику для чтения / записи данных из других систем. API Connect определяет программный интерфейс, который необходимо реализовать для создания настраиваемого коннектора. Уже доступно множество коннекторов с открытым исходным кодом и коммерческих соединителей для популярных систем данных. Однако сам Apache Kafka не включает готовые соединители.
Streams API
Kafka Streams (или Streams API) - это библиотека потоковой обработки, написанная на Java. Он был добавлен в выпуске Kafka 0.10.0.0. Библиотека позволяет разрабатывать приложения для потоковой обработки с отслеживанием состояния, которые являются масштабируемыми, эластичными и полностью отказоустойчивыми. Основной API - это потоковая обработка предметно-ориентированный язык (DSL), который предлагает высокоуровневые операторы, такие как фильтр, карта, группировка, управление окнами, агрегация, объединения и понятие таблиц. Кроме того, API процессора можно использовать для реализации пользовательских операторов для более низкоуровневого подхода к разработке. DSL и Processor API также могут быть смешаны. Для потоковой обработки с отслеживанием состояния Kafka Streams использует RocksDB для поддержания состояния местного оператора. Поскольку RocksDB может записывать данные на диск, поддерживаемое состояние может быть больше доступной основной памяти. Для обеспечения отказоустойчивости все обновления локальных хранилищ состояний также записываются в тему кластера Kafka. Это позволяет воссоздать состояние, прочитав эти темы и загрузив все данные в RocksDB.
Совместимость версий
До версии 0.9.x брокеры Kafka обратно совместимы только со старыми клиентами. Начиная с Kafka 0.10.0.0, брокеры также совместимы с новыми клиентами. Если новый клиент подключается к более старому брокеру, он может использовать только те функции, которые поддерживает брокер. Для Streams API полная совместимость начинается с версии 0.10.1.0: приложение Kafka Streams 0.10.1.0 несовместимо с брокерами 0.10.0 или более ранней версии.
Спектакль
Мониторинг сквозной производительности требует отслеживания метрик от брокеров, потребителей и производителей в дополнение к мониторингу. Работник зоопарка, который Kafka использует для координации действий потребителей.[7][8] В настоящее время существует несколько платформ мониторинга для отслеживания производительности Kafka. В дополнение к этим платформам сбор данных Kafka также может выполняться с использованием инструментов, обычно связанных с Java, включая JConsole.[9]
Смотрите также
- Apache Flink
- Apache Samza
- Потоковая передача Apache Spark
- Служба распространения данных
- Шаблоны корпоративной интеграции
- Система обмена сообщениями предприятия
- Потоковая аналитика
- SOA, управляемая событиями
- Hortonworks DataFlow
- По промежуточного слоя, ориентированного на сообщения
- Сервис-Ориентированная Архитектура
Рекомендации
- ^ "Apache Kafka на GitHub". github.com. Получено 5 марта 2018.
- ^ «Открытый исходный код Kafka, распределенной очереди сообщений LinkedIn». Получено 27 октября 2016.
- ^ "Скачать". Получено 2020-08-03.
- ^ "Эффективность". kafka.apache.org. Получено 2019-09-19.
- ^ «Каковы отношения между Кафкой, писателем, и Apache Kafka, распределенной системой обмена сообщениями?». Quora. Получено 2017-06-12.
- ^ "Что такое Apache Kafka". confluent.io. Получено 2018-05-04.
- ^ «Мониторинг показателей производительности Kafka». 2016-04-06. Получено 2016-10-05.
- ^ Музакитис, Эван (2016-04-06). «Мониторинг показателей производительности Kafka». datadoghq.com. Получено 2016-10-05.
- ^ «Сбор метрик производительности Kafka - Datadog». 2016-04-06. Получено 2016-10-05.