Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing (2023) (Alfonso Antolínez García)
Автор: Alfonso Antolínez García
Эта книга объясняет, как масштабировать Apache Spark 3 для обработки огромных объемов данных, как с помощью пакетной, так и потоковой обработки. В ней рассказывается о том, как использовать структурированные API Spark для выполнения сложных преобразований данных и анализа, которые можно использовать для реализации сквозных аналитических рабочих процессов.
Первый раздел знакомит с экосистемой Apache Spark как единым механизмом для анализа больших объемов данных. Второй раздел посвящен пакетной обработке, подходящей для обработки в конце цикла, и вводу данных через файлы и базы данных. В нем рассказывается об API Spark DataFrame, а также о структурированных и неструктурированных данных. Последний раздел посвящен масштабируемым, высокопроизводительным и отказоустойчивым потоковым рабочим нагрузкам.