Новый проект создателя apache spark – технологии параллелизации с открытыми исходниками – привлёк многомиллионные инвестиции

Американский венчурный фонд Andreessen Horowitz положил $14 млн в компанию Databricks, за которой стоят главные разработчики нескольких серьёзных проектов с открытыми исходниками, имеющих отношение к “громадным данным”. Чем они занимаются сейчас, не афишируется. Такая секретность интригует западных журналистов и даёт им предлог именовать Databricks “загадочным стартапом“.

Сайт Databricks лаконичен. Он раскрывается маленьким сообщением, которое показывает, что компания разрабатывает новое поколение программных средств для анализа данных и надеется наряду с этим на результаты долгих изучений.

После этого направляться перечень основателей. В их число входит доктор наук Массачусетского технологического университета, создавший платформу Apache Spark, два доктора наук Университета Беркли, один из которых основал компанию Conviva, разрабатывающую разработку адаптации потокового видео к пропускной свойству сети, а второй – Nicira, специализировавшуюся на разработках виртуализации и годом ранее приобретённую VMWare.

Четвёртое имя в перечне участников правления – Бен Горовиц из Andreessen Horowitz. Венчурный фонд, в котором он сотрудничает с одним из основателей Netscape Марком Андриссеном, известен успешными инвестициями в Skype, Инстаграм, Groupon и Zynga.

Apache Spark является системой организации параллельной обработки данных, написанную на функциональном языке программирования Scala. В отличие от разработки MapReduce, в большинстве случаев, применяемой для обработки информации, которая записана на твёрдых дисках, Spark обрабатывает эти, хранящиеся в оперативной памяти. Создатели разработки считают, что таковой подход многократно увеличивает быстродействие во многих задачах, которые связаны с машинным обучением либо data mining.

Apache Spark уже применяют многие компании, а также Яху!, AirBNB, Conviva и Quantifind (стартап, разрабатывающий технологии предиктивной аналитики). Помимо этого, Spark является основой для ещё одного проекта с открытыми исходниками – Apache Shark. Shark, как и проект Apache Hive, из которого он вырос, рекомендован для суммирования, анализа и извлечения информации, содержащейся в массивных хранилищах данных. Отличие от Hive содержится в замене Hadoop (свободной реализации MapReduce) на Spark.

Бену Лорике (Ben Lorica) из O’Reilly Media удалось определить кое-какие подробности о замыслах Databricks. В блоге O’Reilly Strata он информирует, что компания разрабатывает универсальные аналитические инструменты, применяющие HDFS (свободную реализацию Гугл File System), YARN (новое поколение Hadoop) и компоненты Berkeley Data Analytics Stack, в число которых входят Spark и Shark.

Помимо этого, как мы знаем, что в Databricks собираются сохранить верность идеологии свободного софта.

Случайное видео:


Интересные записи: