Amazon web services внедряет инструменты обработки “больших данных” в реальном времени

С 2009 года Amazon Web Services предлагала клиентам делать запросы к базам данных громадного количества при помощи инструмента с открытым исходным кодом называющиеся Hive. Сравнительно не так давно в AWS была добавлена помощь Impala – нового инструмента для скоростной обработки “громадных данных”, созданного компанией Cloudera.

Impala разрешает разбирать терабайты за секунды, что делает вероятным параллельную обработку громадных количеств данных в реальном времени. Новые эти возможно додавать на лету, а запросы выполняются посредством SQL-подобного языка, оптимизированного для работы на кластерах AWS.

Снабжая высочайшую скорость, Impala требует для собственной работы большего количества оперативной памяти, чем Hive при ответе подобных задач.

На создание Impala громадное влияние оказала компания Google. Данный неповторимый инструмент для Big Data был создан на базе совокупности аналитической обработки в настоящем времени Google Dremel.

Основная отличительная черта последней содержится в правилах работы с данными. В отличие от пакетной обработки запросов, принятой в Map/Reduce, Гугл Dremel делает операции конкретно в хранимом массиве. Совокупность сама интегрируется в структуру обрабатываемых данных, за счёт чего и достигается ускорение в десятки раз.

Кроме Impala, на Гугл Dremel основан второй подобный инструмент – Apache Drill. Со своей стороны, сама Dremel разрабатывается как часть собственной аналитической платформы Гугл Big Query.

Выход за пределы Map/Reduce посредством Гугл Dremel воображает базу для нового поколения разработок Hadoop и содействует формированию экосистемы проектов с открытым кодом. Hive, Pig и другие – все они созданы так, дабы отвлечься от сложности Map/Reduce.

Мгновенная обработка данных – главное свойство программ, основанных на Гугл Dremel. Конкретно исходя из этого Impala рассматривается как естественное дополнение к инструментам бизнес-аналитики – таким как средство визуализации данных Tableau.

Интерактивная совокупность обработки запросов Impala трудится с данными, находящимися на серверах под управлением Hadoop Distributed File System. В числе добавивших в текущем году в собственные продукты помощь Hadoop – Микрософт, IBM и Rackspace.

Сейчас позиции Amazon на рынке ответов в области Big Data усиливаются за счёт Impala и других продуктов, направленных на скоростную обработку данных. Объединяющим элементом для них помогает сервис Kinesis. Он принимает потоки данных в один момент из различных источников и передаёт их вторым аналитическим инструментам.

Случайное видео:


Интересные записи: