Apache Arrow – это программная платформа с открытым исходным кодом, предназначенная для разработки приложений, эффективно выполняющих обработку и анализ табличных данных за счет размещения воперативнойпамяти. В обновленном втором издании представлен обзор формата Arrow с акцентом на его...
При работе любого корпоративного приложения образуются данные: файлы журналов, показатели, информация об активности пользователей, исходящие сообщения и другие. Правильное управление этими данными не менее важно, чем сами данные. Если вы архитектор, разработчик или инженер-технолог, но вы пока...
онвейеры обработки данных управляют потоком данных с момента их первоначального сбора до консолидации, очистки, анализа, визуализации и многого другого. Apache Airflow предоставляет единую платформу, которую можно использовать для проектирования, реализации, мониторинга и обслуживания...
Надежный обмен сообщениями между серверами является сердцем распределенного приложения. Apache Pulsar — это гибкая платформа обмена сообщениями в реальном времени, созданная для работы в Kubernetes и обеспечивающая масштабируемость и отказоустойчивость, необходимые для облачных систем. Pulsar...
С возрастом мозг становится менее продуктивным: вы медленнее думаете, ваша память ухудшается, вы буквально начинаете “сбоить”. Хроническая усталость, отсутствие мотивации и неспособность сосредоточиться на цели также являются следствием “износа” мозга.
На самом деле мозг не стареет. Он начинает...
Оригинальное название: "How Computers Really Work: A Hands-On Guide to the Inner Workings of the Machine"
Эта книга по экосистеме персонального компьютера: от оперативнойпамяти, тактовых сигналов и машинного кода до языков программирования, операционных систем и интернета. Но вы не просто...
Аналитика большихданных для руководителей
Все, что нужно знать для успешной работы с большими данными: методы аналитики и машинного обучения, принципы работы и функциональные возможности компонентов экосистемы Hadoop, безопасность озера данных, цифровизация бизнеса.
О продукте:
Сегодня...
Перед вами полноценный путеводитель в увлекательный мир обработки данных при помощи Pandas, NumPy и Scikit-learn. Она содержит множество примеров, которые помогут вам научиться преобразовывать сырые крупицы данныхв настоящий шедевр из ценной информации и аналитических выводов. Книга написана...
Книга является пособием для изучения технологий большихданных, охватывая основные и продвинутые аспекты работы с данными в распределенных системах. Начав с основ, она объясняет значение БД, их эволюцию и экосистему Hadoop, включая компоненты и инструменты: HDFS, MapReduce, Hive, Pig, HBase...
Книга о том, как распознавать ложь, дезинформацию, фейковые новости и не попасться на удочку красивых графиков, убедительной статистики и наукообразных терминов.
В отличие от прямой лжи чушь звучит весьма правдоподобно. Это информация, про которую нельзя однозначно сказать, что она ложна, но...
BDAM: Аналитика большихданных для руководителей
Все, что нужно знать для успешной работы с большими данными: методы аналитики и машинного обучения, принципы работы и функциональные возможности компонентов экосистемы Hadoop, безопасность озера данных, цифровизация бизнеса.
О продукте:
Сегодня...
Часть 1. Основы GreenPlum: GreenPlum как реляционная MPP СУБД
Введение в GreenPlum
Архитектура GreenPlum
Партиционирование таблиц, индексы
Транзакции и блокировки
Оптимизация и планы запросов
Лабораторная работа
Часть 2. Внешние данные и код: GreenPlum как агрегатор данных и исполнитель кода...
Описание
О чем эта книга
Автор этой книги понятным неспециалисту языком рассказывает о том, что такое большие данные, как они меняют мир и что нужно делать, чтобы повысить уровень аналитики в своей организации и принимать взвешенные решения, основанные на информации. Из этой книги вы узнаете...
Эта книга научит вас мыслить новыми категориями, а не просто представлять данные ввиде строк и столбцов. Вы сможете перекинуть мостик от элементарной работы с данными к их систематизации и выстраиванию на их основе полноценных историй. Узнаете, как обращаться с выбросами и представлять...
Современный мир невозможно представить без данных, и от их визуального представления во многом зависит эффективность работы с ними. Эта книга подробно рассказывает о Yandex DataLens — одном из мощнейших средств анализа и визуализации данных.
Среди рассматриваемых тем:
• подключение к данным из...
Apache Airflow для аналитиковданных
Какие темы затронем
Разберем что такое пайплайн и зачем нам DAG
Изучим основы Airflow и напишем первый скрипт
Разберемся с архитектурой и интерфейсом
Установим свой Airflow в Docker
Погрузимся в best practices по разработке
Что после?
После курса полученных...
PRAR: Практическая архитектура данных
Классические методы, современные подходы и лучшие практики архитектуры и интеграции данных для проектных команд.
На примерах платформенных решений, корпоративных фабрик данных, микросервисов и веб-приложений.
Архитектура данных (Data Architecture):
Это...
Даем базовые навыки работы в одном из известнейших визуализаторовданных - Tableau. На курсе вы познакомитесь с этой программой и получите базовые навыки построения в ней дашбордов.
Чему вы научитесь
Ознакомитесь с различными видами права, включая корпоративное, обязательственное, трудовое...
Технология хранения и обработки большихданных Hadoop (Тимур Машнин)
Apache Hadoop - это платформа для распределенной обработки больших наборовданных на кластерах компьютеров с использованием простых моделей программирования. В этой книге вы познакомитесь с общей архитектурой платформы...
Программа курса Администрирование кластера Kafka
1. Введение в Kafka
Что такое Apache Kafka?
Сценарии использования Kafka
Компоненты Kafka и Kafka экосистемы
Архитектура Kafka
Кластер Zookeeper (Установка кластера Kafka без использования Zookeeper KIP-500)
2. Основные концепции Kafka
Как...