{"time":1730529696194,"blocks":[{"id":"nh4o5O6Z97","type":"header2","data":{"text":"Что такое Apache Hadoop?","level":2},"tunes":{}},{"id":"Va44aygm20","type":"paragraph","data":{"text":"Apache Hadoop — это платформа для хранения и работы с большими объемами данных. Ее преимущество заключается в распределении вычислений между множеством узлов. Hadoop разбивает большую задачу на много маленьких и решает их одновременно на разных компьютерах."}},{"id":"9EExM-x-3x","type":"paragraph","data":{"text":"Основные компоненты фреймворка:"}},{"id":"8B3FsYK3aO","type":"list","data":{"style":"unordered","items":["Hadoop Distributed File System (HDFS) — файловая система для хранения больших данных с потоковым доступом. HDFS оптимизирована под работу с файлами до десятков терабайт, а кластеры могут хранить петабайты информации.","MapReduce — модель для обработки записей из HDFS. MapReduce разбивает задачу на две фазы. На этапе «Map» данные обрабатываются параллельно на разных узлах кластера, а на этапе «Reduce» результаты объединяются.","Yet Another Resource Negotiator (YARN) — система управления ресурсами кластера и планирования задач. YARN расширяет возможности Hadoop и поддерживает другие модели обработки помимо MapReduce — Spark, Flink."]}},{"id":"lfjBonJ3DG","type":"paragraph","data":{"text":"HDFS, MapReduce и YARN образуют основу Hadoop, обеспечивая хранение, обработку и управление ресурсами соответственно."}},{"id":"dQkmrmqR3t","type":"image","data":{"alt":"","title":"","caption":"Основные компоненты Apache Hadoop","file":{"id":40079,"url":"https://media.tproger.ru/user-uploads/105601/2024-10-20/446c84b0-9bfc-4650-b210-eb5626b26f54.jpg"},"stretched":false,"withBackground":false,"withBorder":false,"width":1920,"height":1080,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/105601/2024-10-20/446c84b0-9bfc-4650-b210-eb5626b26f54.jpg","alt":"Работа с большими данными: введение в Apache Hadoop и Spark 1","dimensions":{"width":1920,"height":1080},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/Ylz_adcTZzh8vovNwdCIUoueDJheMfJBYLzVeRyB738/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/sstA9ao2jO3q18RcTfUeH9FkVUF7fUOezPL9qmSpcH4/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/3YiHq4aSrtdm6vfo1VAC79fwjp6fRe2LPE5Kt8H5Z8c/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/-ExeOrsjUGQwPPTDFlm2t9IB-cijHESjD3a78S4z5so/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/yQ-uxC-rWujYnt_Mul-1vcCNCDz38FGAHqwzXcCx6zY/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/6v0_T4s3uR48ecXPDPHs20COOisOTjhlGN94K0psv-k/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/_l905zPnleKYSEovUkcEHSg1i289deQYxsrp8FusU_Q/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/c_gj4DQGvmO1CQrubOdOE70MNBU3Q4aKmcpD2lySlPg/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC80NDZjODRiMC05YmZjLTQ2NTAtYjIxMC1lYjU2MjZiMjZmNTQuanBn","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"d18Gq9MZz3","type":"paragraph","data":{"text":"Hadoop используют для анализа логов пользователей, чтобы, например, улучшить таргетирование рекламы. Онлайн-ритейлеры применяют Hadoop для рекомендаций товаров на основе истории покупок и просмотров. Распределенная система также применяется в банковской сфере для обработки транзакций."}},{"id":"0p9w_nKKiE","type":"header2","data":{"text":"Преимущества Hadoop","level":2},"tunes":{}},{"id":"4ZHD_AvH-Z","type":"paragraph","data":{"text":"Масштабируемость. Систему Hadoop можно расширять до тысяч узлов. Компании наращивают вычислительные мощности по мере роста объемов данных."}},{"id":"3d213d9b-30d3-480e-9115-210a8d4f896e","type":"banner-blank","data":{}},{"id":"rOO2Y6_YIb","type":"paragraph","data":{"text":"Экономия. Дешевые сервера на базе Hadoop объединяются в мощный вычислительный кластер. Компании используют Hadoop, чтобы не инвестировать в дорогостоящее оборудование."}},{"id":"q1fPKEi7Fc","type":"paragraph","data":{"text":"Отказоустойчивость. Благодаря распределенной архитектуре и автоматической репликации Hadoop работает даже при отказе отдельных узлов кластера."}},{"id":"TigMAl5EYS","type":"paragraph","data":{"text":"Гибкость. Hadoop применяется в проектах со структурированными и неструктурированными данными."}},{"id":"FR1jw0T0QB","type":"header2","data":{"text":"Что такое Apache Spark?","level":2},"tunes":{}},{"id":"4TMeKyNSDg","type":"paragraph","data":{"text":"Apache Spark — это система распределенных вычислений. Она используется для преодоления ограничений Hadoop MapReduce и интегрируется поверх HDFS."}},{"id":"u4HpkANUy_","type":"paragraph","data":{"text":"Spark до 100 раз быстрее Hadoop MapReduce благодаря обработке данных в памяти. Также Spark предоставляет API на Java, Scala, Python. Еще поддерживаются пакетная обработка, интерактивные запросы, потоковая обработка и машинное обучение."}},{"id":"IFTti3-ntD","type":"image","data":{"alt":"","title":"","caption":"Основные компоненты Apache Spark","file":{"id":40081,"url":"https://media.tproger.ru/user-uploads/105601/2024-10-20/3f226d96-3f71-4add-bbf7-bd9773a012f7.jpg"},"stretched":false,"withBackground":false,"withBorder":false,"width":1920,"height":1080,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/105601/2024-10-20/3f226d96-3f71-4add-bbf7-bd9773a012f7.jpg","alt":"Работа с большими данными: введение в Apache Hadoop и Spark 2","dimensions":{"width":1920,"height":1080},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/DbCbEU9mMVqaugoBCpMqrRB0PvFLN7Vwod1BZWBWzXI/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/H0FO5aeE6EnlpvXyHhcy2bxTt-PvdNAqlwZ2DLNJ0Hs/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/ssmW5cQPdfcz1CVp_xDw2qvwNhcHh1c5JSrsKedOmxw/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/y9zKZhF06kj7b6YSo2riXemCYz7kONhKOqxqoOW2_I4/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/6AH_aZDURH5keYNPvyjusOkUJtPogN0m7UYuDBEQKw0/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/pwhuvPJt4uY9uIjjn35ajU-61BiML6SZ7thrHh6u4Ec/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/X-5I0rLTN4u2XU7t2vnWLLbn6ZOzLUDAfHGuBQHk8O0/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/VeJjGYtFHDJhYlQEf2oANcx9dCexqpXSF-Ngpj2usbo/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8xMDU2MDEvMjAyNC0xMC0yMC8zZjIyNmQ5Ni0zZjcxLTRhZGQtYmJmNy1iZDk3NzNhMDEyZjcuanBn","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"kcZnwW2mqY","type":"paragraph","data":{"text":"Компоненты Apache Spark:"}},{"id":"aHv1HV5DJi","type":"list","data":{"style":"unordered","items":["Spark Core — движок для распределенной обработки больших данных. Включает в себя API для работы с Resilient Distributed Datasets (RDD) — основной абстракцией данных в Spark.","Spark SQL — модуль для работы со структурированными данными, поддерживающий SQL-запросы.","Spark Streaming — компонент для обработки потоковых данных в реальном времени.","MLlib — библиотека машинного обучения с алгоритмами для классификации, регрессии, кластеризации и фильтрации данных.","GraphX — движок для визуализации данных на графиках."]}},{"id":"2G35U1NH0H","type":"header2","data":{"text":"Преимущества Spark","level":2},"tunes":{}},{"id":"mYVJcuQHIJ","type":"paragraph","data":{"text":"Скорость. Spark быстрее Hadoop. Производительность заметна при интерактивной обработке информации и задачах с низкой задержкой."}},{"id":"68OgIq8Ztt","type":"paragraph","data":{"text":"Отказоустойчивость. Как и Hadoop, Spark устойчив к сбоям за счет распределенного хранения и обработки информации."}},{"id":"75GeYzKLZc","type":"paragraph","data":{"text":"Универсальность. Spark подходит для разных видов обработки информации: пакетной, потоковой, SQL-запросов, машинного обучения и графовых алгоритмов."}},{"id":"PVuuRXE29S","type":"paragraph","data":{"text":"Интерактивность. Благодаря производительности, с помощью Спарка можно анализировать информацию в реальном времени."}},{"id":"0blgzLB0RY","type":"header2","data":{"text":"Hadoop vs Spark: сравнение и различия","level":2},"tunes":{}},{"id":"9ozrvZb2TG","type":"paragraph","data":{"text":"Оба инструмента предназначены для работы с массивами информации, но их подходы и возможности существенно различаются."}},{"id":"IlEf_eiuCk","type":"header3","data":{"text":"Производительность","level":3},"tunes":{}},{"id":"tHSnLqBJ1Z","type":"paragraph","data":{"text":"Hadoop был создан как решение для распределенной обработки информации, позволяющее разделить нагрузку между множеством серверов. Spark же появился позже как ответ на ограничения Hadoop, предлагая более быструю и гибкую альтернативу пакетной обработке."}},{"id":"db74dbd3-9ec3-4450-ae2c-5a9fb4e76763","type":"banner-blank","data":{}},{"id":"2O-jQsRDCH","type":"paragraph","data":{"text":"Hadoop эффективен для пакетной обработки больших данных, но не отличается высокой скоростью из-за постоянного обращения к внешнему хранилищу. Это делает его подходящим для задач, не требующих мгновенного отклика, например, для анализа ежемесячных отчетов."}},{"id":"MOG5QD-gu7","type":"paragraph","data":{"text":"Спарк ориентирован на обработку в реальном времени. Он копирует информацию в оперативную память, что значительно ускоряет процесс. Такой подход позволяет Spark превосходить Hadoop как в простых, так и в сложных операциях."}},{"id":"WWx8SrrUUL","type":"paragraph","data":{"text":"Hadoop:"}},{"id":"NOhwyKEr3b","type":"list","data":{"style":"ordered","items":["Записывает промежуточные результаты на диск, что замедляет выполнение задачи.","Эффективен для пакетной обработки, когда время выполнения не критично.","Предпочтительнее для обработки данных, которые не помещаются в память кластера."]}},{"id":"eKFaekrE0i","type":"paragraph","data":{"text":"Spark:"}},{"id":"XCNz5pzehi","type":"list","data":{"style":"ordered","items":["Хранит промежуточные результаты в памяти, минимизируя операции ввода-вывода.","Использует направленный ациклический граф (DAG) для оптимизации задач.","До 100 раз быстрее Hadoop MapReduce, когда данные помещаются в память."]}},{"id":"1pdP9-kLat","type":"header3","data":{"text":"Программные модели","level":3},"tunes":{}},{"id":"zbWYvoNaro","type":"paragraph","data":{"text":"Основа Hadoop — собственная распределенная файловая система HDFS, которая разбивает массивы данных на мелкие блоки и распределяет их по кластеру. Спарк не имеет встроенной файловой системы, поэтому использует HDFS Hadoop для хранения и управления базой."}},{"id":"qHBVn6fQh3","type":"paragraph","data":{"text":"Hadoop:"}},{"id":"GblnyHO_8n","type":"list","data":{"style":"ordered","items":["Двухэтапная модель map и reduce.","Сложно реализовывать алгоритмы с несколькими этапами обработки данных."]}},{"id":"ji5uxOsIPi","type":"paragraph","data":{"text":"Spark:"}},{"id":"erk4jrnVrv","type":"list","data":{"style":"ordered","items":["Более гибкая модель с использованием Resilient Distributed Datasets (RDD) и DataFrame API.","Поддерживает функциональное программирование, что упрощает написание итеративных алгоритмов."]}},{"id":"VS_KtbLnEd","type":"paragraph","data":{"text":"Hadoop изначально разрабатывался с учетом высоких требований к безопасности и включает функции шифрования и контроля доступа. Spark имеет ограниченные встроенные механизмы защиты и требует дополнительных мер безопасности при развертывании."}},{"id":"dfX1LNOTzq","type":"header3","data":{"text":"Поддержка различных типов данных и возможностей машинного обучения","level":3},"tunes":{}},{"id":"d8QmjpQut8","type":"paragraph","data":{"text":"Функционал Spark в обработке данных гораздо шире, чем у Hadoop."}},{"id":"fTMcxr56R8","type":"paragraph","data":{"text":"Hadoop:"}},{"id":"wstfn-f9QN","type":"list","data":{"style":"ordered","items":["Поддержка структурированных данных через Hive.","Обработка неструктурированных данных через MapReduce.","Ограниченная поддержка потоковых данных.","Ограниченная поддержка графовых данных.","Работа с CSV, JSON через Hive.","Нет встроенной библиотеки машинного обучения.","Ограниченный набор алгоритмов ML через внешние инструменты.","Ограниченные возможности интерактивного анализа данных.","Обработка текста через MapReduce.","Ограниченные возможности анализа графов.","Проблемы с реализацией алгоритмов машинного обучения."]}},{"id":"buvFgT6I41","type":"paragraph","data":{"text":"Spark:"}},{"id":"WtIHF-JzWv","type":"list","data":{"style":"ordered","items":["Поддержка структурированных данных через Spark SQL.","Обработка неструктурированных данных через RDD API.","Полная поддержка потоковых данных через Spark Streaming.","Полная поддержка графовых данных через GraphX.","Работа с CSV, JSON, Parquet и другими форматами через Spark SQL.","Встроенная библиотека машинного обучения MLlib.","Широкий набор алгоритмов ML в MLlib.","Широкие возможности интерактивного анализа через Spark Shell.","Обработка текста через RDD API и MLlib.","Реализованы алгоритмы PageRank, Connected Components, Shortest Paths.","Относительно простая реализация сложных алгоритмов ML."]}},{"id":"EFOO6fvy41","type":"header2","data":{"text":"Интеграция Hadoop и Spark","level":2},"tunes":{}},{"id":"Sej-lAo9IN","type":"paragraph","data":{"text":"Платформы интегрируются вместе на проектах, где необходимо хранить данные долговременно и быстро их обрабатывать:"}},{"id":"mw1JD2rJO5","type":"list","data":{"style":"unordered","items":["HDFS используется как основное файловое хранилище, предоставляя масштабируемую инфраструктуру для хранения информации.","Spark обрабатывает и трансформирует данные в реальном времени.","YARN распределяет вычислительные мощности между платформами."]}},{"id":"XjsXmQcN1G","type":"paragraph","data":{"text":"Расширить функционал системы можно при помощи следующих инструментов:"}},{"id":"ltOt0elNMx","type":"list","data":{"style":"unordered","items":["Apache Hive — позволяет выполнять SQL-подобные запросы к данным, хранящимся в HDFS, используя Спарк в качестве движка.","Apache Kafka — система обмена сообщениями, часто используемая вместе со Spark Streaming для обработки в реальном времени.","Apache HBase — NoSQL на основе HDFS, которая может быть использована совместно со Спарком для быстрого доступа к данным."]}},{"id":"Hy56AwYHmK","type":"paragraph","data":{"text":"Чтобы выбрать оптимальную архитектуру системы и компоненты, нужно определить требования и цели проекта. Например, если требуется обрабатывать потоковые данные, то помимо Hadoop и Spark понадобиться Apache Kafka."}},{"id":"SdBQ7zypwP","type":"paragraph","data":{"text":"Следующий этап — планирование инфраструктуры. Необходимо рассчитать объемы данных, которые будут храниться в HDFS, и спроектировать кластер. Нужно выделить достаточно ресурсов для процессов Спарка, учитывая пиковые нагрузки."}},{"id":"pfZQnoOgKv","type":"header2","data":{"text":"Шаг 1. Определите источники данных и их характеристики","level":2},"tunes":{}},{"id":"KfOjFbgiQv","type":"paragraph","data":{"text":"Составьте список всех источников данных, которые будут загружаться в HDFS. Для каждого источника выясните:"}},{"id":"pynSMIfbK6","type":"list","data":{"style":"unordered","items":["формат (CSV, JSON, Avro, текстовые логи),","частоту поступления (раз в час/день/неделю, непрерывный поток),","объем, поступающий за один период,","ожидаемый рост в будущем."]}},{"id":"y7vY6fP9td","type":"paragraph","data":{"text":"Пример:"}},{"id":"0ba5184a-f50f-4167-a93c-07e56bc72f71","type":"banner-blank","data":{}},{"id":"dyP15wq0xE","type":"paragraph","data":{"text":"Есть 3 источника данных об активности пользователей на сайте, о покупках и логи сервера приложений. Данные поступают каждый день в формате JSON, со средним объемом 5 ГБ, 10 ГБ и 20 ГБ соответственно. Ожидаемый ежегодный прирост — 20%."}},{"id":"UHIZ_DnH1I","type":"header2","data":{"text":"Шаг 2. Определите время хранения данных","level":2},"tunes":{}},{"id":"zpX2S3obX8","type":"paragraph","data":{"text":"Решите, как долго хранить каждый тип данных, исходя из требований бизнеса. Иногда достаточно хранить только свежие данные за последний месяц."}},{"id":"oN6KUbRCOi","type":"paragraph","data":{"text":"Пример:"}},{"id":"pqA_ET1FZG","type":"paragraph","data":{"text":"Решили хранить данные об активности и покупках за последние 2 года, а логи сервера — за 6 месяцев."}},{"id":"eX4vJ2QsFa","type":"header2","data":{"text":"Шаг 3. Рассчитайте общий объем сырых данных","level":2},"tunes":{}},{"id":"H1186GDWdd","type":"paragraph","data":{"text":"Для каждого источника рассчитайте ожидаемый объем данных за требуемый период хранения. Учитывайте ожидаемый рост."}},{"id":"9ctFsx1voE","type":"paragraph","data":{"text":"Пример:"}},{"id":"p9Bc1_Ylr-","type":"list","data":{"style":"unordered","items":["Активность: 5 ГБ × 365 дней × 2 года × 1.2 (прирост 20% в год) = 4.38 ТБ","Покупки: 10 ГБ × 365 дней × 2 года × 1.2 = 8.76 ТБ","Логи: 20 ГБ × 182 дня × 1.1 (за полгода прирост около 10%) = 4 ТБ","Итого сырых данных: 4.38 + 8.76 + 4 = 17.14 ТБ"]}},{"id":"Z-glsgAwfG","type":"header2","data":{"text":"Шаг 4. Учтите репликацию","level":2},"tunes":{}},{"id":"XNYJzJLI85","type":"paragraph","data":{"text":"По умолчанию HDFS хранит 3 копии каждого блока данных для обеспечения отказоустойчивости. Поэтому оценку объёма данных нужно умножить на коэффициент репликации."}},{"id":"ipnu-GFHVi","type":"paragraph","data":{"text":"Пример:"}},{"id":"VYNrOfKY7w","type":"paragraph","data":{"text":"С учетом репликации потребуется 17.14 ТБ × 3 = 51.42 ТБ"}},{"id":"n4SMKPJtFI","type":"header2","data":{"text":"Шаг 5. Добавьте пространство для промежуточных данных","level":2},"tunes":{}},{"id":"xfjfvgcSGc","type":"paragraph","data":{"text":"В процессе обработки данных в Hadoop создаются временные файлы, результаты ETL-процессов, агрегаты. Нужно зарезервировать под них дополнительное пространство — обычно 20-30% от объема сырых данных."}},{"id":"2REDBkti90","type":"paragraph","data":{"text":"Пример:"}},{"id":"ZdjEgMJtI3","type":"paragraph","data":{"text":"Добавляем 30% к оценке: 51.42 ТБ × 1.3 = 66.85 ТБ"}},{"id":"UI-pu4Bv_K","type":"header2","data":{"text":"Шаг 6. Спланируйте разделение по папкам","level":2},"tunes":{}},{"id":"20BxEx97cB","type":"paragraph","data":{"text":"Для удобства управления данными в HDFS их нужно разделить по папкам — например, по типам, по бизнес-доменам. Примерная структура:"}},{"id":"D4hx3e0dnU","type":"list","data":{"style":"unordered","items":["/data/raw/,","/data/processed/,","/data/tmp/,","/user/,","/apps/."]}},{"id":"OiVwNja-iu","type":"paragraph","data":{"text":"Это позволит выставлять разные политики хранения для разных типов данных, ограничивать права доступа."}},{"id":"4ddd7ca0-2b2a-4b4c-b1bb-831779e3a27a","type":"banner-blank","data":{}},{"id":"ZoMqSUrCz2","type":"paragraph","data":{"text":"В HDFS планируется разместить около 66.85 ТБ данных с учетом двухлетнего срока хранения, ожидаемого роста, репликации и промежуточных сведений. На основе этой оценки можно принимать решения о конфигурации кластера. В реальных проектах могут быть и другие факторы, влияющие на расчеты — например, сжатие больших данных, нагрузка на кластер."}},{"id":"6fhukOZJDu","type":"header2","data":{"text":"Пример проекта с большими данными на Hadoop и Spark","level":2},"tunes":{}},{"id":"GuhETbQzur","type":"paragraph","data":{"text":"Предположим, что есть большой набор данных о продажах в сети розничных магазинов. Наша задача — проанализировать собранные сведения, чтобы получить бизнес-инсайты. Будем использовать HDFS для хранения информации, а Spark — для их обработки."}},{"id":"NA9hwL_sph","type":"paragraph","data":{"text":"Сначала загрузим датасет в HDFS. Информация о продажах содержится в CSV-файле sales_data.csv. Загрузим его в HDFS с помощью bash-команды:"}},{"id":"LuFXchGM1t","type":"code","data":{"code":"hdfs dfs -put /path/to/local/sales_data.csv /data/sales_data.csv","language":"bash","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"2IiJwCZWwM","type":"paragraph","data":{"text":"Пример кода на PySpark для анализа данных из sales_data.csv:"}},{"id":"K2_fIa3TOf","type":"code","data":{"code":"from pyspark.sql import SparkSession\nfrom pyspark.sql.functions import col, sum, avg\n\n# Инициализация Spark сессии\nspark = SparkSession.builder \\\n .appName(\"RetailSalesAnalysis\") \\\n .config(\"spark.hadoop.fs.defaultFS\", \"hdfs://localhost:9000\") \\\n .getOrCreate()\n\n# Чтение из HDFS\ndf = spark.read.csv(\"hdfs:///data/sales_data.csv\", header=True, inferSchema=True)\n\n# Общие продажи по категориям\nsales_by_category = df.groupBy(\"category\") \\\n .agg(sum(\"sales_amount\").alias(\"total_sales\")) \\\n .orderBy(col(\"total_sales\").desc())\n\nprint(\"Общие продажи по категориям:\")\nsales_by_category.show()\n\n# Средняя цена продукта по брендам\navg_price_by_brand = df.groupBy(\"brand\") \\\n .agg(avg(\"price\").alias(\"avg_price\")) \\\n .orderBy(col(\"avg_price\").desc())\n\nprint(\"Средняя цена продукта по брендам:\")\navg_price_by_brand.show()\n\n# ТОП-5 продуктов по количеству продаж\ntop_5_products = df.groupBy(\"product_name\") \\\n .agg(sum(\"quantity\").alias(\"total_quantity\")) \\\n .orderBy(col(\"total_quantity\").desc()) \\\n .limit(5)\n\nprint(\"Топ-5 продуктов по количеству продаж:\")\ntop_5_products.show()\n\n# Сохранение результатов в HDFS\nsales_by_category.write.csv(\"hdfs:///results/sales_by_category\", header=True, mode=\"overwrite\")\navg_price_by_brand.write.csv(\"hdfs:///results/avg_price_by_brand\", header=True, mode=\"overwrite\")\ntop_5_products.write.csv(\"hdfs:///results/top_5_products\", header=True, mode=\"overwrite\")\n\n# Закрытие Spark-сессии\nspark.stop()","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"LsVI3NK5Wd","type":"paragraph","data":{"text":"Скрипт создает сессию Spark с конфигурацией для работы с HDFS, читает данные из CSV-файла. Далее запускается 3 вида анализа:"}},{"id":"hRGZ0MnD8X","type":"list","data":{"style":"unordered","items":["Расчет общих продаж по категориям товаров.","Определение средней цены продукта по брендам.","Выявление ТОП-5 продуктов по количеству продаж."]}},{"id":"qGCZMyr4KO","type":"paragraph","data":{"text":"В конце скрипт выводит результаты анализа на экран и сохраняет их в HDFS в формате CSV."}},{"id":"v7d1Bd_0B8","type":"header2","data":{"text":"Заключение","level":2},"tunes":{}},{"id":"at7sjzJ0sf","type":"paragraph","data":{"text":"Hadoop и Spark открывают огромные возможности для работы с большими данными, но их внедрение — это непросто. Каждый проект уникален, и опыт использования этих технологий может сильно различаться."}},{"id":"vFTgHtxmPH","type":"paragraph","data":{"text":"А вы уже использовали Hadoop и Spark на своих проектах? "}},{"id":"WMhzH8OlmF","type":"poll","data":{"id":"6725c9373fb1c7cf4b0005f3"}},{"id":"iwI39rd-ok","type":"paragraph","data":{"text":"Поделитесь опытом в комментариях:"}},{"id":"RxipwWt5sW","type":"list","data":{"style":"unordered","items":["Какие задачи вы решали с помощью этих инструментов?","С какими трудностями столкнулись при внедрении?","Какие недостатки обнаружили?"]}},{"id":"HgRTjxHlly","type":"paragraph","data":{"text":"Ваши истории будут очень полезны для тех, кто только начинает изучать Hadoop и Spark."}}],"version":"2.25.0"}

Ошибка в настройках сайта