WikiDer > Apache Spark - Википедия
Оригинальный автор (ы) | Матей Захария |
---|---|
Разработчики) | Apache Spark |
изначальный выпуск | 26 мая 2014 г. |
Стабильный выпуск | 3.0.1 / 2 октября 2020 г. |
Репозиторий | Репозиторий Spark |
Написано в | Scala[1] |
Операционная система | Майкрософт Виндоус, macOS, Linux |
Доступно в | Scala, Ява, SQL, Python, р, C #, F # |
Тип | Аналитика данных, машинное обучение алгоритмы |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | Искра |
Apache Spark является Открытый исходный код распределен общее назначение кластерные вычисления рамки. Spark обеспечивает интерфейс для программирования целых кластеров с неявным параллелизм данных и Отказоустойчивость. Первоначально разработан в Калифорнийский университет в Берклис AMPLab, Искра кодовая база позже был передан в дар Фонд программного обеспечения Apache, который поддерживает его с тех пор.
Обзор
Архитектура Apache Spark основана на устойчивом распределенном наборе данных (RDD), доступном только для чтения. мультимножество элементов данных, распределенных по кластеру машин, который поддерживается в отказоустойчивой путь.[2] API Dataframe был выпущен как абстракция поверх RDD, за которой последовал API набора данных. В Spark 1.x RDD был основным интерфейс прикладного программирования (API), но в Spark 2.x использование Dataset API приветствуется.[3] хотя RDD API не устарел.[4][5] Технология RDD по-прежнему лежит в основе API набора данных.[6][7]
Spark и его RDD были разработаны в 2012 году в ответ на ограничения в Уменьшение карты кластерные вычисления парадигма, который заставляет конкретную линейную поток данных структура распределенных программ: программы MapReduce считывают входные данные с диска, карта функция для данных, уменьшать результаты карты и сохранить результаты сокращения на диске. RDD Spark функционируют как рабочий набор для распределенных программ, предлагающих (намеренно) ограниченную форму распределенного Общая память.[8]
Spark облегчает реализацию обоих итерационные алгоритмы, которые обращаются к своему набору данных несколько раз в цикле, и интерактивный / исследовательский анализ данных, т. е. повторяющийся база данныхзапрос данных в стиле. В задержка таких приложений может быть уменьшено на несколько порядков по сравнению с Apache Hadoop Реализация MapReduce.[2][9]К классу итерационных алгоритмов относятся алгоритмы обучения для машинное обучение системы, которые послужили первоначальным импульсом для разработки Apache Spark.[10]
Apache Spark требует менеджер кластера и распределенная система хранения. Для управления кластером Spark поддерживает автономный режим (собственный кластер Spark, где вы можете запускать кластер вручную или использовать сценарии запуска, предоставленные установочным пакетом. Также можно запустить эти демоны на одной машине для тестирования), Hadoop ПРЯЖА, Apache Mesos или же Kubernetes. [11] Для распределенного хранилища Spark может взаимодействовать с широким спектром, включая Alluxio, Распределенная файловая система Hadoop (HDFS),[12] Файловая система MapR (MapR-FS),[13] Кассандра,[14] OpenStack Swift, Amazon S3, Куду, Файловая система Lustre,[15] или может быть реализовано индивидуальное решение. Spark также поддерживает псевдораспределенный локальный режим, обычно используемый только для целей разработки или тестирования, когда распределенное хранилище не требуется, а вместо него может использоваться локальная файловая система; в таком сценарии Spark запускается на одном компьютере с одним исполнителем на Ядро процессора.
Искровое ядро
Spark Core - это основа всего проекта. Он обеспечивает распределенную диспетчеризацию задач, планирование и основные Ввод / вывод функциональные возможности, предоставляемые через интерфейс прикладного программирования (для Ява, Python, Scala, .СЕТЬ[16] и р) с центром в СДР абстракция (API Java доступен для других языков JVM, но также может использоваться для некоторых других языков, отличных от JVM, которые могут подключаться к JVM, например Юля[17]). Этот интерфейс отражает функциональный/более высокого порядка модель программирования: программа-драйвер вызывает параллельные операции, такие как отображение, фильтр или уменьшить RDD, передав функцию в Spark, который затем планирует выполнение функции параллельно в кластере.[2] Эти и дополнительные операции, такие как присоединяетсяиспользуйте RDD в качестве входных данных и создайте новые RDD. RDD неизменный и их операции ленивый; отказоустойчивость достигается за счет отслеживания «происхождения» каждого RDD (последовательности операций, которые его создали), чтобы его можно было восстановить в случае потери данных. СДР могут содержать объекты Python, .NET, Java или Scala любого типа.
Помимо функционального стиля программирования, ориентированного на RDD, Spark предоставляет две ограниченные формы общих переменных: широковещательные переменные ссылаться на данные только для чтения, которые должны быть доступны на всех узлах, в то время как аккумуляторы может использоваться для программирования сокращений в императив стиль.[2]
Типичным примером функционального программирования, ориентированного на RDD, является следующая программа Scala, которая вычисляет частоты всех слов, встречающихся в наборе текстовых файлов, и распечатывает наиболее распространенные из них. Каждый карта, flatMap (вариант карта) и reduceByKey занимает анонимная функция который выполняет простую операцию с одним элементом данных (или парой элементов) и применяет свой аргумент для преобразования RDD в новый RDD.
вал conf = новый SparkConf().setAppName("wiki_test") // создаем объект конфигурации Sparkвал sc = новый SparkContext(conf) // Создаем контекст искрывал данные = sc.текстовый файл("/ путь / к / somedir") // Считываем файлы из "somedir" в RDD пар (имя файла, содержимое).вал жетоны = данные.flatMap(_.расколоть(" ")) // Разбиваем каждый файл на список токенов (слов).вал wordFreq = жетоны.карта((_, 1)).reduceByKey(_ + _) // Добавляем счетчик к каждому токену, затем суммируем счетчики для каждого типа слова.wordFreq.Сортировать по(s => -s._2).карта(Икс => (Икс._2, Икс._1)).верх(10) // Получаем 10 первых слов. Поменяйте местами слова и подсчитайте, чтобы отсортировать по количеству.
Spark SQL
Искра SQL - это компонент поверх Spark Core, который представил абстракцию данных под названием DataFrames,[а] который обеспечивает поддержку структурированных и полуструктурированные данные. Spark SQL предоставляет предметно-ориентированный язык (DSL) для управления кадрами данных в Scala, Ява, Python или же .СЕТЬ.[16] Он также обеспечивает поддержку языка SQL, с интерфейсы командной строки и ODBC/JDBC сервер. Хотя в DataFrames отсутствует проверка типов во время компиляции, предоставляемая RDD, начиная со Spark 2.0, строго типизированный DataSet полностью поддерживается Spark SQL.
импорт org.apache.spark.sql.SparkSessionвал url = "jdbc: mysql: // yourIP: yourPort / test? user = yourUsername; password = yourPassword" // URL-адрес вашего сервера базы данных.вал Искра = SparkSession.строитель().getOrCreate() // Создаем объект сеанса Sparkвал df = Искра .читать .формат("jdbc") .вариант("URL", url) .вариант("dbtable", "люди") .нагрузка()df.printSchema() // Смотрим схему этого DataFrame.вал countsByAge = df.группа по("возраст").считать() // Считает людей по возрасту// или альтернативно через SQL://df.createOrReplaceTempView("people ")// val countsByAge = spark.sql ("ВЫБРАТЬ возраст, количество (*) ИЗ ГРУППИРОВКИ ПО возрасту")
Spark Streaming
Spark Streaming использует возможность быстрого планирования Spark Core для выполнения потоковая аналитика. Он принимает данные в мини-пакетах и выполняет преобразования RDD для этих мини-пакетов данных. Такой дизайн позволяет использовать тот же набор кода приложения, написанный для пакетной аналитики, в потоковой аналитике, что упрощает реализацию лямбда-архитектура.[19][20] Однако за это удобство накладывается штраф за задержку, равную продолжительности мини-пакета. Другие механизмы потоковой передачи данных, которые обрабатывают событие за событием, а не мини-пакетами, включают Буря и потоковый компонент Flink.[21] Spark Streaming имеет встроенную поддержку для использования из Кафка, Лоток, Twitter, ZeroMQ, Кинезис, и Сокеты TCP / IP.[22]
В Spark 2.x для поддержки потоковой передачи также предоставляется отдельная технология, основанная на наборах данных, называемая структурированной потоковой передачей, которая имеет интерфейс более высокого уровня.[23]
Spark можно развернуть в традиционном на территории Дата центр а также в облако.
Библиотека машинного обучения MLlib
Spark MLlib - это распределен фреймворк машинного обучения поверх Spark Core, который, в значительной степени благодаря архитектуре Spark на основе распределенной памяти, в девять раз быстрее, чем реализация на основе диска, используемая Apache Mahout (согласно тестам, проведенным разработчиками MLlib против альтернативный метод наименьших квадратов (ALS) и до того, как сам Mahout получил интерфейс Spark), и напольные весы лучше чем Ваупал Ваббит.[24] Было реализовано множество распространенных алгоритмов машинного обучения и статистики, которые поставляются с MLlib, что упрощает крупномасштабное машинное обучение. трубопроводы, включая:
- сводные статистические данные, корреляции, стратифицированная выборка, проверка гипотезы, генерация случайных данных[25]
- классификация и регресс: опорные векторные машины, логистическая регрессия, линейная регрессия, наивная байесовская классификация, Древо решений, Случайный лес, Дерево с усиленным градиентом
- совместная фильтрация методы, включая метод альтернативных наименьших квадратов (ALS)
- методы кластерного анализа включая k-означает, и скрытое размещение Дирихле (LDA)
- методы уменьшения размерности Такие как разложение по сингулярным числам (СВД), и Анализ главных компонентов (PCA)
- извлечение признаков и трансформация функции
- оптимизация такие алгоритмы как стохастический градиентный спуск, BFGS с ограниченной памятью (L-BFGS)
GraphX
GraphX - это распределенный графическая обработка framework на базе Apache Spark. Поскольку он основан на неизменяемых RDD, графы неизменяемы, и поэтому GraphX не подходит для графов, которые необходимо обновить, не говоря уже о транзакционной манере, такой как база данных графов.[26] GraphX предоставляет два отдельных API для реализации алгоритмов с массовым параллелизмом (таких как PageRank): а Pregel абстракция и более общий API в стиле MapReduce.[27] В отличие от своего предшественника Bagel, который официально объявлен устаревшим в Spark 1.6, GraphX полностью поддерживает графы свойств (графы, в которых свойства могут быть прикреплены к ребрам и вершинам).[28]
GraphX можно рассматривать как версию Spark в памяти Apache Giraph, в котором использовался дисковый MapReduce Hadoop.[29]
Как и Apache Spark, GraphX изначально начинался как исследовательский проект в AMPLab и Databricks Калифорнийского университета в Беркли, а затем был передан в дар Apache Software Foundation и проекту Spark.[30]
Языковая поддержка
Apache Spark имеет встроенную поддержку Scala, Java, R и Python со сторонней поддержкой языков .net,[31] Юля,[32] и больше.
История
Первоначально Spark был запущен Матей Захария в AMPLab Калифорнийского университета в Беркли в 2009 году и с открытым исходным кодом в 2010 году под Лицензия BSD.[33]
В 2013 году проект был передан в дар Apache Software Foundation и сменил лицензию на Apache 2.0. В феврале 2014 года Spark стал Проект Apache верхнего уровня.[34]
В ноябре 2014 года компания основателя Spark М. Захария. Датабрики установил новый мировой рекорд крупномасштабной сортировки с помощью Spark.[35][33]
В 2015 году у Spark было более 1000 участников,[36] что делает его одним из самых активных проектов Apache Software Foundation[37] и один из самых активных open source большое количество данных проекты.
Версия | Исходная дата выпуска | Последняя версия | Дата выхода |
---|---|---|---|
0.5 | 2012-06-12 | 0.5.1 | 2012-10-07 |
0.6 | 2012-10-14 | 0.6.2 | 2013-02-07 |
0.7 | 2013-02-27 | 0.7.3 | 2013-07-16 |
0.8 | 2013-09-25 | 0.8.1 | 2013-12-19 |
0.9 | 2014-02-02 | 0.9.2 | 2014-07-23 |
1.0 | 2014-05-26 | 1.0.2 | 2014-08-05 |
1.1 | 2014-09-11 | 1.1.1 | 2014-11-26 |
1.2 | 2014-12-18 | 1.2.2 | 2015-04-17 |
1.3 | 2015-03-13 | 1.3.1 | 2015-04-17 |
1.4 | 2015-06-11 | 1.4.1 | 2015-07-15 |
1.5 | 2015-09-09 | 1.5.2 | 2015-11-09 |
1.6 | 2016-01-04 | 1.6.3 | 2016-11-07 |
2.0 | 2016-07-26 | 2.0.2 | 2016-11-14 |
2.1 | 2016-12-28 | 2.1.3 | 2018-06-26 |
2.2 | 2017-07-11 | 2.2.3 | 2019-01-11 |
2.3 | 2018-02-28 | 2.3.4 | 2019-09-09 |
2.4 LTS | 2018-11-02 | 2.4.7 | 2020-10-12[38] |
3.0 | 2020-06-18 | 3.0.1 | 2020-10-02[39] |
Легенда: Старая версия Старая версия, все еще поддерживается Последняя версия Последняя предварительная версия |
Смотрите также
Примечания
Рекомендации
- ^ «Spark Release 2.0.0».
MLlib в R: SparkR теперь предлагает API MLlib [..] Python: PySpark теперь предлагает гораздо больше алгоритмов MLlib "
- ^ а б c d Захария, Матей; Чоудхури, Мошараф; Франклин, Майкл Дж .; Шенкер, Скотт; Стойка, Ион. Spark: кластерные вычисления с рабочими наборами (PDF). Семинар USENIX по актуальным темам облачных вычислений (HotCloud).
- ^ «Быстрый запуск Spark 2.2.0». apache.org. 2017-07-11. Получено 2017-10-19.
мы настоятельно рекомендуем вам перейти на использование набора данных, который имеет лучшую производительность, чем RDD
- ^ "Список устаревших версий Spark 2.2.0". apache.org. 2017-07-11. Получено 2017-10-10.
- ^ Дамжи, Джулс (14.07.2016). «История трех API-интерфейсов Apache Spark: RDD, DataFrames и Datasets: когда их использовать и почему». databricks.com. Получено 2017-10-19.
- ^ Чемберс, Билл (10.08.2017). "12". Spark: полное руководство. O'Reilly Media.
практически весь код Spark, который вы запускаете, где DataFrames или Datasets, компилируется в RDD
- ^ «Что такое Apache Spark? Учебное руководство по Spark для начинающих». janbasktraining.com. 2018-04-13. Получено 2018-04-13.
- ^ Захария, Матей; Чоудхури, Мошараф; Дас, Татхагата; Дэйв, Анкур; Ма, Джастин; Макколи, Мерфи; J., Майкл; Шенкер, Скотт; Стойка, Ион (2010). Устойчивые распределенные наборы данных: отказоустойчивая абстракция для кластерных вычислений в памяти (PDF). USENIX Symp. Проектирование и внедрение сетевых систем.
- ^ Синь, Рейнольд; Розен, Джош; Захария, Матей; Франклин, Майкл; Шенкер, Скотт; Стойка, Ион (июнь 2013 г.). «Shark: SQL и обширная аналитика в масштабе» (PDF). arXiv:1211.6176. Bibcode:2012arXiv1211.6176X. Цитировать журнал требует
| журнал =
(помощь) - ^ Харрис, Деррик (28 июня 2014 г.). «4 причины, по которым Spark может превратить Hadoop в гипердвигатель». Гигаом.
- ^ «Обзор режима кластера - Документация Spark 2.4.0 - Типы диспетчера кластеров». apache.org. Фонд Apache. 2019-07-09. Получено 2019-07-09.
- ^ Рисунок, показывающий Spark по отношению к другим программным проектам с открытым исходным кодом, включая Hadoop
- ^ Матрица поддержки экосистемы MapR
- ^ Доан, DuyHai (10 сентября 2014 г.). "Re: cassandra + spark / pyspark". Пользователь Кассандры (Список рассылки). Получено 2014-11-21.
- ^ Ван, Яньдун; Голдстоун, Робин; Ю, Вэйкуань; Ван, Тэн (май 2014 г.). «Характеристика и оптимизация резидентного MapReduce в системах HPC». 28-й Международный симпозиум по параллельной и распределенной обработке, 2014 г., IEEE. IEEE. С. 799–808. Дои:10.1109 / IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
- ^ а б dotnet / spark, Платформа .NET, 14 сентября 2020 г., получено 2020-09-14
- ^ «GitHub - DFDX / Spark.jl: привязка Julia для Apache Spark». 2019-05-24.
- ^ «Версия Spark 1.3.0 | Apache Spark».
- ^ «Применение лямбда-архитектуры с помощью Spark, Kafka и Cassandra | Pluralsight». www.pluralsight.com. Получено 2016-11-20.
- ^ Шапира, Гвен (29 августа 2014 г.). «Построение лямбда-архитектуры с помощью Spark Streaming». cloudera.com. Cloudera. Архивировано из оригинал 14 июня 2016 г.. Получено 17 июн 2016.
повторно использовать те же агрегаты, которые мы написали для нашего пакетного приложения, в потоке данных в реальном времени
- ^ Чинтапалли, Санкет; Дагит, Дерек; Эванс, Бобби; Фаривар, Реза; Грейвс, Томас; Холдербо, Марк; Лю, Чжо; Нусбаум, Кайл; Патил, Кишоркумар; Пэн, Боян Джерри; Поулски, Пол (май 2016 г.). «Тестирование механизмов потоковых вычислений: Storm, Flink и Spark Streaming». IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW) 2016 г.. IEEE. С. 1789–1792. Дои:10.1109 / IPDPSW.2016.138. ISBN 978-1-5090-3682-0. S2CID 2180634.
- ^ Харбанда, Аруш (17 марта 2015 г.). «Получение данных в потоковой передаче Spark». sigmoid.com. Sigmoid (Саннивейл, штат Калифорния, производящая ИТ-компания). Архивировано из оригинал 15 августа 2016 г.. Получено 7 июля 2016.
- ^ Захария, Матей (28.07.2016). «Структурированная потоковая передача в Apache Spark: новый высокоуровневый API для потоковой передачи». databricks.com. Получено 2017-10-19.
- ^ Спаркс, Эван; Талвалкар, Амит (06.08.2013). «Встреча Spark: MLbase, распределенное машинное обучение с помощью Spark». slideshare.net. Встреча пользователей Spark, Сан-Франциско, Калифорния. Получено 10 февраля 2014.
- ^ "MLlib | Apache Spark". spark.apache.org. Получено 2016-01-18.
- ^ Малак, Михаил (14 июня 2016 г.). «Поиск изоморфизмов графов в GraphX и GraphFrames: обработка графов против базы данных графов». slideshare.net. sparksummit.org. Получено 11 июля 2016.
- ^ Малак, Михаил (1 июля 2016 г.). Spark GraphX в действии. Мэннинг. п. 89. ISBN 9781617292521.
Pregel и его младший брат aggregateMessages () - краеугольные камни обработки графов в GraphX. ... алгоритмы, требующие большей гибкости для условия завершения, должны быть реализованы с использованием aggregateMessages ()
- ^ Малак, Михаил (14 июня 2016 г.). «Поиск изоморфизмов графов в GraphX и GraphFrames: обработка графов против базы данных графов». slideshare.net. sparksummit.org. Получено 11 июля 2016.
- ^ Малак, Михаил (1 июля 2016 г.). Spark GraphX в действии. Мэннинг. п. 9. ISBN 9781617292521.
Giraph может замедлить отображение карты / уменьшения Hadoop.
- ^ Гонсалес, Джозеф; Синь, Рейнольд; Дэйв, Анкур; Крэнкшоу, Дэниел; Франклин, Майкл; Стойка, Ион (октябрь 2014 г.). «GraphX: обработка графиков в среде распределенного потока данных» (PDF). Цитировать журнал требует
| журнал =
(помощь) - ^ [1]
- ^ [2]
- ^ а б Кларк, Линдси. «Apache Spark ускоряет принятие решений в отношении больших данных». ComputerWeekly.com. Получено 2018-05-16.
- ^ «Apache Software Foundation объявляет Apache & # 8482 Spark & # 8482 как проект верхнего уровня». apache.org. Фонд программного обеспечения Apache. 27 февраля 2014 г.. Получено 4 марта 2014.
- ^ Spark официально устанавливает новый рекорд крупномасштабной сортировки
- ^ Деятельность по разработке Open HUB Spark
- ^ «Apache Software Foundation объявляет Apache & # 8482 Spark & # 8482 как проект верхнего уровня». apache.org. Фонд программного обеспечения Apache. 27 февраля 2014 г.. Получено 4 марта 2014.
- ^ "Spark News". apache.org.
- ^ "Spark News". apache.org.