16 января 2015, 09:36

Open Source-проект Apache Spark поставил новый мировой рекорд в сортировке 100 терабайт данных

Логотип Apache Spark
Иллюстрация с сайта Spark.Apache.Org

По итогам тестирования по бенчмарку Sort Benchmark, Open Source-проекту Apache Spark удалось поставить новый мировой рекорд в сортировке 100 терабайт данных (1 триллион 100-байтовых записей).

Тестирование проводилось компанией Databricks еще в октябре 2014 года. Программное обеспечение на базе Apache Spark запускали на 207 виртуальных машинах, находящихся в облаке EC2, — в результате теста удалось отсортировать 100 терабайт данных за 23 минуты. Предыдущий мировой рекорд, созданный с помощью другой популярной Open Source-платформы — Hadoop MapReduce, — проводился на 2100 машинах в частном дата-центре и привёл к результату в 72 минуты. Для тестирования использовался бенчмарк имени Джима Грея (Sort Benchmark), в применении которого соревнуются организации со всего мира.

После проведения основного теста энтузиасты решили провести ещё один Big Data-тест и воспользовались Apache Spark для сортировки 1 петабайта данных (10 триллионов записей): на 190 машинах это удалось сделать за 4 часа. Этот показатель также превосходит прошлый рекорд, установленный Hadoop MapReduce: 16 часов на 3800 хостах. Сообщается, что это первый случай использования свободного ПО в комбинации с публичной облачной инфраструктурой (Amazon EC2) для достижения подобного рекорда в сортировке, и вообще первая в мире попытка сортировки 1 Пб данных в публичном облаке.

Постоянная ссылка к новости: https://www.nixp.ru/news/13099.html. Дмитрий Шурупов по материалам opensource.com.

Big Data, cloud, Spark, истории успеха, статистика

Комментировать (0)

3 ноября 2017

10:55

OlegL, 17 декабря 2023 года в 15:00 → Перекличка 21
REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1

DevOps as a Service from Palark

24/7 SRE & DevOps service to cover all your Kubernetes needs.

Open Source-проект Apache Spark поставил новый мировой рекорд в сортировке 100 терабайт данных

AT&T добавила Kubernetes и Helm в свою промышленную облачную платформу на базе OpenStack 0

ASF рассказала о росте популярности фреймворка для распределённых программ Apache Hadoop 2.8 0

Apache Software Foundation исполняется 18 лет: статистика по Open Source-проектам организации 0

Microsoft запустила свой первый SaaS-сервис на базе Linux — HDInsight в Azure — и выбрала для него Ubuntu 0

Microsoft предложила в Azure свое решение HDInsight на базе Hadoop, которое работает в Linux 31 2

Итоги опроса Canonical: Публичные облака уступают частным в популярности 11