{"time":1723479702138,"blocks":[{"id":"M9EEigKCuK","type":"paragraph","data":{"text":"Разработчики используют API каждый день, и подавляющее их число отдает данные в виде JSON-массивов, будь то логи бота или резюме кандидатов с площадок по поиску работы. С небольшими файлами.json учат обращаться на многих курсах программирования, но что делать, если объем такого вывода становится некомфортно большим? Или вы регулярно «упираетесь» в ошибки, вызванные разнородной структурой элементов? В этой статье мы познакомим вас с тремя решениями, которые помогут эффективно работать с большими JSON файлами."}},{"id":"40USvDdOdW","type":"hint","data":{"text":"Если вы только-только начали изучать способы хранения, знания JSON можно освежить здесь.","fullWidth":true}},{"id":"RHXFw7oAgN","type":"header2","data":{"text":"Способ первый: параллельная обработка","level":2},"tunes":{}},{"id":"eGJGvm5SjO","type":"paragraph","data":{"text":"Классическое решение, задействующее навыки параллелизации. К примеру, если признак name каждого элемента требует обновления:"}},{"id":"ZLPEIcnVou","type":"code","data":{"code":"json_data = [\n {\"id\": 1, \"name\": \"Item 1\"},\n {\"id\": 2, \"name\": \"Item 2\"}, …\n {\"id\": 3, \"name\": \"Item 3\"}\n]","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"FZaex2ASx3","type":"paragraph","data":{"text":"Мы можем задать две функции. Первая из них добавляет значению name префикс Test:"}},{"id":"fPbxgtb97-","type":"code","data":{"code":"async def update_json_array(json_data, api_base_url):\n async with aiohttp.ClientSession() as session:\n tasks = []\n for element in json_data:\n # Обновляем значение name, добавляя \"Test\" в начало\n element['name'] = \"Test \" + element['name']\n \n # Здесь формируем URL без ID, так как мы отправляем POST-запрос\n tasks.append(update_element(session, api_base_url, element))\n \n # Ждем завершения всех задач\n results = await asyncio.gather(*tasks)\n return results","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"awjEa5fduL","type":"paragraph","data":{"text":"А вторая пушит обновление:"}},{"id":"oBhXoUlzP9","type":"code","data":{"code":"async def update_element(session, api_base_url, element):\n # Отправляем POST запрос на создание нового ресурса\n async with session.post(api_base_url, json=element) as response:\n # Получаем и возвращаем ответ в виде JSON\n return await response.json()","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"m5WpM0ZftX","type":"paragraph","data":{"text":"В итоге мы распараллеливаем запуск этих функций с помощью asyncio:"}},{"id":"llUpyz641u","type":"code","data":{"code":"import asyncio\nimport json\n\napi_base_url = \"http://example.com/api/items\"\n\n# Асинхронный цикл\nloop = asyncio.get_event_loop()\nupdated_results = loop.run_until_complete(update_json_array(json_data, api_base_url))","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"1al4fIjS1o","type":"header2","data":{"text":"Способ второй: пакетная обработка в binary","level":2},"tunes":{}},{"id":"pxTbZgowjT","type":"paragraph","data":{"text":"В комьюнити Hadoop и Spark (для хранения больших данных) особое признание обрел формат Parquet. Когда речь идет об огромных объемах информации, удобство ее обработки превалирует над читаемостью. Здесь вообще рекомендую избегать подключения pandas и перевода в человекочитаемый формат в промежутке."}},{"id":"XQcfwOi1bT","type":"paragraph","data":{"text":"Такой код:"}},{"id":"9ms7mtAPJv","type":"code","data":{"code":"table = pa.Table.from_pandas(df)","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"OyXYyukKMq","type":"list","data":{"style":"ordered","items":["«Заморозит» вашу программу, если файл слишком большой;","Не учитывает массивы с меняющейся структурой."]}},{"id":"PmZyXbSuGh","type":"paragraph","data":{"text":"А до этого RAM вообще может закончится на шаге конвертации JSON в датафрейм."}},{"id":"10XuWm5obY","type":"paragraph","data":{"text":"В такой ситуации поможет библиотека ijson:"}},{"id":"uuY7ocw5Nf","type":"code","data":{"code":"import pyarrow as pa\nimport pyarrow.parquet as pq\nimport ijson\n\ninput_file = 'large_file.json'\noutput_file = 'output.parquet'\n\n# Список для хранения данных\nrows = []\n\n# Открываем JSON-файл и читаем его построчно\nwith open(input_file, 'r') as f:\n # Итерируем поэлементно\n for obj in ijson.items(f, 'item'):\n rows.append(obj)\n\n # Банчи по 1000 записей сохраняем в Parquet\n if len(rows) >= 1000:\n table = pa.Table.from_pylist(rows)\n # В режиме добавления\n pq.write_table(table, output_file, append=True)\n rows = []","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"SCaIufof3Y","type":"paragraph","data":{"text":"К примеру, конверсия кортежа в binary:"}},{"id":"tUpJYZiWyQ","type":"code","data":{"code":"data = (7, 3.14, 10)","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"sCROJ_4IvB","type":"paragraph","data":{"text":"Превратит числа вот в такую компактную и быстродейственную абракадабру:"}},{"id":"tzD1h0_lOz","type":"code","data":{"code":"b'\\x07\\x00\\x00\\x00\\xc3\\xf5H@\\n\\x00'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"jd4NkXsNUR","type":"header2","data":{"text":"Способ третий: перейти в другой формат","level":2},"tunes":{}},{"id":"gOLEKPvWq_","type":"paragraph","data":{"text":"На курсах повышения квалификации нашу группу познакомили с Redis — альтернативой классическим базам вроде PostgreSQL. Так здорово осознавать, что до тебя немало людей уже отстрадались на ниве JSON и даже создали целое решение, «бьющее» самые распространенные проблемы — разнородность элементов массива, вложенные узлы."}},{"id":"GSE5jD7Rog","type":"paragraph","data":{"text":"Представьте, сколько энергии потребуется даже с ChatGPT, чтобы написать скрипт на Python, который «схлопнет» до табличного состояния данные кандидатов ниже?"}},{"id":"DYToarHI3v","type":"code","data":{"code":"[\n {\n \"id\": 1,\n \"name\": \"Иван Иванов\",\n \"experience\": {\n \"years\": 5,\n \"projects\": [\n {\n \"name\": \"Интернет-магазин\",\n \"role\": \"Ведущий разработчик\",\n \"technologies\": [\"PHP\", \"MySQL\", \"JavaScript\"],\n \"description\": \"Разработка и поддержка интернет-магазина с высокой нагрузкой.\"\n },\n {\n \"name\": \"Корпоративный портал\",\n \"role\": \"PHP-разработчик\",\n \"technologies\": [\"PHP\", \"Laravel\", \"HTML\", \"CSS\"],\n \"description\": \"Создание корпоративного портала для внутреннего использования.\"\n }\n ]\n },\n \"skills\": [\"PHP\", \"MySQL\", \"Git\", \"HTML\", \"CSS\"],\n \"education\": {\n \"degree\": \"Бакалавр\",\n \"institution\": \"Национальный университет\",\n \"year\": 2018\n },\n \"location\": \"Москва\",\n \"contact\": {\n \"email\": \"ivan.ivanov@example.com\",\n \"phone\": \"+7 (999) 123-45-67\"\n }\n },\n {\n \"id\": 2,\n \"name\": \"Мария Петрова\",\n \"experience\": {\n \"years\": 3,\n \"projects\": [\n {\n \"name\": \"Система управления задачами\",\n \"role\": \"PHP-разработчик\",\n \"technologies\": [\"PHP\", \"PostgreSQL\", \"Vue.js\"],\n \"description\": \"Разработка веб-приложения для управления задачами внутри команды.\"\n }\n ]\n },\n \"skills\": [\"PHP\", \"PostgreSQL\", \"JavaScript\", \"Git\"],\n \"education\": {\n \"degree\": \"Магистр\",\n \"institution\": \"Технический университет\",\n \"year\": 2020\n },\n \"location\": \"Санкт-Петербург\",\n \"contact\": {\n \"email\": \"maria.petrova@example.com\",\n \"phone\": \"+7 (999) 234-56-78\"\n }\n }]","language":"json","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"ZBChG-rsH7","type":"paragraph","data":{"text":"Пару лет назад я занималась подобным перед загрузкой логов бота в BigQuery (SQL-подобная база), а потом была вынуждена обрабатывать ситуацию «забытых» полей (они проявлялись реже, чем раз в неделю, на которой опробовали скрипт выгрузки). Это приводило к необходимости обновлять схему таблицы, заниматься перезаливом и в целом фрустрироваться ситуацией."}},{"id":"ZQw2i4_zDo","type":"paragraph","data":{"text":"Теперь понимаю: лучший способ сократить мороку при обращении с массивами — отойти от формата строго заданной структуры как можно раньше. Redis буквально создан для этого. В подгружаемом массиве через месяц появился экземпляр кандидата с новым полем portfolio? «Редиска» положит к себе и такое, причем без множественных ошибок. Захотите в дальнейшем использовать данные таблично? Вычитайте сет с помощью самописной функции:"}},{"id":"H00XhLKYjS","type":"code","data":{"code":"import redis\n\nr = redis.Redis(\n host = ,\n port = ,\n password = ,\n)\n\n# Функция преобразования данных в датафрейм\ndef read_redis_set_to_dataframe(redis_set_name):\n # Чтение всех элементов сета\n redis_set = r.smembers(redis_set_name)\n\n data = [json.loads(item) for item in redis_set] # Перевод строковых представлений словарей в объекты Python\n df = pd.DataFrame(data)\n\n return df\n\nredis_set_name = 'candidates'\n\ndf = read_redis_set_to_dataframe(redis_set_name)","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"Vr-hMHFNhS","type":"image","data":{"alt":"Методы работы с Big JSON","title":"","caption":"","file":{"id":35456,"url":"https://media.tproger.ru/user-uploads/79101/2024-08-11/41302dc2-592a-4eae-bfd9-03a029629440.png"},"stretched":false,"withBackground":false,"withBorder":false,"width":3450,"height":1210,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/79101/2024-08-11/41302dc2-592a-4eae-bfd9-03a029629440.png","alt":"🔥Как быстро и эффективно работать с большими JSON-файлами 1","dimensions":{"width":3450,"height":1210},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/4TQBCP_BUVNHnSgn_jht0bN1peQOOecn6MvtoUAP8LQ/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/ceyLTouTautKVr6OEc6T4KMy8QNh87dSKsXoQohbP28/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/BepR3YuhtlWotzO9-ROBGIeOvaUnN6TF1PWq0vLdFRs/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/-rCavv9wvboaBCWdhBYzvzmaVW46RGVtvKsfaDoIhkc/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/uhfbzmUND-_ld_o7MZVEOMMTfRV6sGNTmimIrHF6_rA/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/bkh7ZgKE32Aci8DUyLtVPEdnG-9z7BtegY3NRFpf0Pg/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/sGm-yuIIuq32_ypIWeaJwQ0e0sr5plsvtBW_hBtwKB8/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/_G1X6Z4I9jP1Mi7Pl26c5XzkHgGx_fCffsWa6SDT0PE/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzQxMzAyZGMyLTU5MmEtNGVhZS1iZmQ5LTAzYTAyOTYyOTQ0MC5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"Zz1jTPRUIj","type":"paragraph","data":{"text":"И что немаловажно, данные хранятся в оперативной памяти сервера, что ускоряет обращение с ними, даже в случае с большими порциями. Если ваша компания, конечно, не испытывает проблем с масштабируемостью."}},{"id":"Jl3g_1GsDv","type":"paragraph","data":{"text":"Приятный бонус: логика сета (это аналог таблицы в базе) подразумевает уникальные значения. То есть очистка от повторений будет произведена автоматически. И тут ощущаются спасенные человекочасы."}},{"id":"ixujRQ-p9z","type":"image","data":{"alt":"Как работать с большими JSON файлами","title":"","caption":"","file":{"id":35457,"url":"https://media.tproger.ru/user-uploads/79101/2024-08-11/958b52d3-0efd-441c-a7a7-f6d27159d2a7.jpg"},"stretched":false,"withBackground":false,"withBorder":false,"width":2000,"height":1941,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/79101/2024-08-11/958b52d3-0efd-441c-a7a7-f6d27159d2a7.jpg","alt":"🔥Как быстро и эффективно работать с большими JSON-файлами 2","dimensions":{"width":2000,"height":1941},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/PakodSHDC_FTNqGEAlRBLy3osq-j6oeeSIb5f30xpBo/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/gwnhOZZFae0esBTWcipgaDP3ivQ-ZS_Jee-lN-oJZDI/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/w6ReZGgWm8RhgC9gexzjVMbY8T4kMyb7mbtalxlaSJ8/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/xuWG3u1VirNPm-jJYWWrDtI7oWLeoe4naJ8SeEw9Xbk/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/7IYo2nk-gTmdisSiYEZOg5nchu5nxnvIjpdM-6dkfyY/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/ltCf8PXOl9bpgjQV32nVsWkr5SLKkHsEqxwE2hb74uA/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/HYPcuIHBQDj0-mpCj6GMm4W2DCVYdzvMo6M8DD2xVZM/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/CD5lTfTyZAqlZTUUX6-fjjPO6ffMwVfRhesAAbl_qnI/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy83OTEwMS8yMDI0LTA4LTExLzk1OGI1MmQzLTBlZmQtNDQxYy1hN2E3LWY2ZDI3MTU5ZDJhNy5qcGc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"xa4_v7jaPT","type":"paragraph","data":{"text":"Многие провайдеры облачных серверов предлагают преднастроенный Redis, который за 5-10 минут встанет из-под Docker-контейнера, и цены на такие услуги стремятся к тем же минимумам, что и голый Ubuntu на миникалках (300 рублей в месяц против 130)."}},{"id":"6a8c58ac-dab4-4bfb-ba58-b3e01a47fbdd","type":"banner-blank","data":{}},{"id":"_CBamQ1_hD","type":"paragraph","data":{"text":"Среди недостатков «редиски» отмечу, что переход от таблиц к сетам может вызвать у разработчика с информационной перегрузкой дополнительный стресс: документация весьма непростая и перестроиться на нетабличное восприятие поначалу потребует много энергии. Но тут очень здорово помогает ChatGPT."}},{"id":"FePd4KCeKl","type":"header2","data":{"text":"Заключение","level":2},"tunes":{}},{"id":"xwquK0zNO9","type":"paragraph","data":{"text":"Если вы дорасли до проектов с массивными объемами данных, это уже прекрасно. Порой стоит позволить себе наошибаться при обращении с ними, пока не подберете наилучшее для ситуации решение. ijson немного сложнее поддерживать, Redis плохо подходит новичкам, asyncio тоже не идеален. В каждом проекте свои тонкости — они и определят, какое из решений оптимальное."}}],"version":"2.25.0"}

Ошибка в настройках сайта