{"blocks":[{"type":"paragraph","data":{"text":"Работа с файлами и базой данных всегда является потенциальным местом возникновения ошибок со временем. Проблемы в коде, такие как загрузка всего файла в память, получение всех данных из базы данных за один запрос, отсутствие массовой вставки в базу данных и т.д., не доставят проблем с небольшими объемами данных, но неизбежно создадут их, когда объем данных увеличится."}},{"type":"paragraph","data":{"text":"Мне стало интересно, насколько оптимальный код напишет chatgpt 3.5 в рамках задачи: Есть большой (более 200 мб) xml файл (cities.xml) со структурой: <cities><city><name>CityName</name></city></cities>."}},{"id":"da37fe2c-e522-4d65-9ecf-5280acce7b90","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Необходимо получить данные из файла и заполнить ими таблицу cities с полями name, created_at, updated_at."}},{"type":"paragraph","data":{"text":"Также нужно создать команду, которая получит все данные из таблицы cities, добавит каждой записи случайное число от 1 до 10 и выгрузит в csv файл в формате (Name, Created At, Random Number). Приложение написано на Laravel."}},{"type":"paragraph","data":{"text":"Условно, можно разделить задачу на этапы: "}},{"type":"list","data":{"items":["Получаем данные из xml, заполняем бд;","Получаем данные из бд, заполняем csv."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Приступим к решению!"}},{"type":"header2","data":{"level":2,"text":"Получаем данные из xml, заполняем бд"}},{"type":"paragraph","data":{"text":"Первым делом, составим запрос к chatgpt:"}},{"type":"paragraph","data":{"text":"

> Есть большой cities.xml файл со структурой: <cities><city><name>CityName</name></city></cities>. Создай команду, которая прочитает cities.xml и заполнит таблицу сities с полем name. На Laravel.

"}},{"type":"paragraph","data":{"text":"Ответ:"}},{"type":"code","data":{"code":"Для создания сущности в Laravel, нужно выполнить команду:\n\nphp artisan make:model City -m\n\nВ файле миграции необходимо определить поля таблицы:\n\npublic function up()\n{\n Schema::create('cities', function (Blueprint $table) {\n $table->id();\n $table->string('name');\n $table->timestamps();\n });\n}\n\nЗатем запустите миграцию:\n\nphp artisan migrate\n\nТеперь можно создать команду для заполнения таблицы City из файла cities.xml. Создайте новый класс команды:\n\nphp artisan make:command FillCitiesTable\n\nВ методе handle этой команды необходимо прочитать файл cities.xml и заполнить таблицу City:\n\npublic function handle()\n{\n $xml = simplexml_load_file('cities.xml');\n foreach ($xml->city as $city) {\n City::create([\n 'name' => (string) $city->name,\n ]);\n }\n}\n\nТеперь можно запустить команду:\n\nphp artisan fill:cities\n\nГотово! Таблица City заполнена данными из файла cities.xml","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Очень здорово, что помимо самой команды, chatgpt описал все необходимые шаги, для того, чтобы команда работала."}},{"id":"af3dd2c3-9b62-47d1-a24d-b592d524cd7a","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Но будет ли команда работать на практике? Нет, получаем ошибку по памяти. Проблема в том, что simplexml_load_file('cities.xml') создает объектную модель документа и полностью грузит её в память."}},{"type":"paragraph","data":{"text":"Так как файл большой, это сразу приводит к PHP Fatal error: Out of memory."}},{"type":"paragraph","data":{"text":"Корректность использования City::create([]) (в рамках этой задачи) вызывает сомнение и приводит к одной из вариации n+1 проблемы, так как на создание каждой сущности, будет создаваться запрос к бд."}},{"type":"paragraph","data":{"text":"Сообщим chatgpt об ошибке:"}},{"type":"paragraph","data":{"text":"

> Файл cities.xml очень большой, этот код не работает, возникает ошибка PHP Fatal error

"}},{"type":"paragraph","data":{"text":"Ответ:"}},{"type":"paragraph","data":{"text":"

> Да, этот код не полный и не будет работать без дополнительных деталей. Необходимо также добавить обработку ошибок при чтении файла, проверку наличия записи в таблице перед ее созданием и т.д. Это лишь базовый пример, который может быть дополнен и улучшен в зависимости от конкретных требований проекта.

"}},{"type":"paragraph","data":{"text":"Хороший ответ, надо бы запомнить."}},{"type":"paragraph","data":{"text":"Конкретизирую запрос:"}},{"type":"paragraph","data":{"text":"> Оптимизируй код команды для работы с большими данными."}},{"type":"paragraph","data":{"text":"Ответ:"}},{"type":"code","data":{"code":"Для оптимизации кода команды можно использовать чтение файла по частям (chunk), чтобы не загружать в память весь файл целиком. Также можно использовать транзакции для ускорения записи данных в базу данных. Исправленный код команды будет выглядеть следующим образом:\n\nclass FillCitiesTable extends Command\n{\n protected $signature = 'fill:cities';\n\n protected $description = 'Fill cities table from XML file';\n\n public function handle()\n {\n $filePath = storage_path('app/cities.xml');\n $xmlReader = new \\XMLReader();\n $xmlReader->open($filePath);\n\n $batchSize = 1000;\n $counter = 0;\n $cities = [];\n\n while ($xmlReader->read() && $xmlReader->name !== 'city');\n\n while ($xmlReader->name === 'city') {\n $node = new SimpleXMLElement($xmlReader->readOuterXML());\n $cities[] = ['name' => (string) $node->name];\n\n if (++$counter % $batchSize === 0) {\n City::insert($cities);\n $cities = [];\n }\n\n $xmlReader->next('city');\n }\n\n if (!empty($cities)) {\n City::insert($cities);\n }\n\n $xmlReader->close();\n\n $this->info('Cities table has been filled');\n }\n}\n\nВ этом коде мы используем \\XMLReader для чтения файла по частям, обрабатываем записи по батчам и используем метод insert() для массовой вставки данных в базу данных внутри транзакции. Это позволит ускорить процесс заполнения таблицы при большом файле.","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"В этот раз chatgpt написал оптимальный код. "}},{"id":"6391afef-3a14-462e-8619-ee549de1f2b1","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Он использует комбинацию XMLReader + SimpleXml для работы с xml. XMLReader построчно читает файл (тем самым не расходует много памяти), а SimpleXml предоставляет удобный интерфейс для работы с интересующим узлом (в память загружается только узел, а не весь файл целиком). "}},{"type":"paragraph","data":{"text":"При записи в бд, он использует массовую вставку City::insert() и Batch processing, где переменная $batchSize регулирует количество элементов для вставки за один запрос, тем самым уменьшая общее количество запросов к бд."}},{"type":"header2","data":{"level":2,"text":"Получаем данные из бд, заполняем csv"}},{"type":"paragraph","data":{"text":"На этом этапе контекст потерялся, поэтому запрос более развернутый:"}},{"type":"paragraph","data":{"text":"

> Есть таблица cities и модель City с полями name, created_at в Laravel. Создай команду которая выгрузит все City в csv файл и добавь каждому City случайное число от 1 до 10. Оптимизируй код для работы с большими данными

"}},{"type":"paragraph","data":{"text":"Ответ: "}},{"type":"code","data":{"code":"Для оптимизации работы с большими данными мы можем использовать метод chunk() модели City, который позволяет обрабатывать записи пакетами по несколько штук за раз. Также для работы с csv файлами мы можем использовать встроенный класс SplFileObject.\n\nВот пример команды:\n\nfputcsv($header);\n\n City::chunk(1000, function ($cities) use ($file) {\n foreach ($cities as $city) {\n $data = [\n $city->name,\n $city->created_at,\n rand(1, 10)\n ];\n\n $file->fputcsv($data);\n }\n });\n\n $this->info('Cities exported successfully!');\n }\n}\n\nВ этой команде мы создаем новый csv файл и записываем в него заголовок. Затем мы используем метод chunk() для обработки записей по 1000 штук за раз. Внутри цикла мы формируем массив данных для каждого города, добавляем случайное число и записываем в csv файл с помощью метода fputcsv().","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Предложенный код решает поставленную задачу. Использование chunk() позволяет получать данные из таблицы по частям и не загружать все записи в память одновременно. "}},{"type":"paragraph","data":{"text":"Узнаем, почему этот код оптимален:"}},{"type":"paragraph","data":{"text":"> Почему этот код оптимальный?"}},{"type":"paragraph","data":{"text":"> Этот код является оптимальным, как указано выше."}},{"type":"paragraph","data":{"text":"Тогда действуем от противного:"}},{"id":"a0f372c1-3460-4ab7-82fe-6a30eb30a4f1","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"> Почему это решение не является оптимальным?"}},{"type":"paragraph","data":{"text":"Ответ: "}},{"type":"paragraph","data":{"text":"

> Данное решение может быть не оптимальным в случае, если таблица City содержит очень большое количество записей. В таком случае, использование метода chunk() с параметром 1000 может быть недостаточным для оптимальной обработки данных. Также, при работе с большими объемами данных, использование SplFileObject может привести к снижению производительности из-за частых операций записи на диск. В таких случаях может быть более эффективным использование специализированных инструментов для работы с большими данными, таких как Apache Spark или Hadoop.

"}},{"type":"paragraph","data":{"text":"Действительно, параметр получаемых записей в chunk(), значимо влияет на производительность приложения. Например, это время работы и потребляемая память с параметром 100.000:"}},{"type":"paragraph","data":{"text":"Time taken: 106.76 seconds"}},{"type":"paragraph","data":{"text":"Memory used: 2.62 MB"}},{"type":"paragraph","data":{"text":"А это с 300.000:"}},{"type":"paragraph","data":{"text":"Time taken: 95.42 seconds"}},{"type":"paragraph","data":{"text":"Memory used: 8.61 MB"}},{"type":"paragraph","data":{"text":"Следовательно, необходимо экспериментально найти оптимальное значение параметра."}},{"type":"paragraph","data":{"text":"Решение этой задачи я выбирал из 12 предложенных вариантов кода."}},{"id":"61795dcd-fb00-4e02-9ac9-5f7f47081d3c","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"7 из 12 были оптимальны, работоспособны и схожи по логике. Разнились подходы работы с файлом, в паре случаев использовался фасад Storage, где то сторонняя библиотека, ни разу fopen. Метод chunk() встречался в 100% случаев. Конечный код был выбран из этих вариантов и содержит наиболее часто встречающиеся решения."}},{"type":"paragraph","data":{"text":"2 из 12 были рабочие, но не были оптимальны и загружали все данные за раз (City::all())."}},{"type":"paragraph","data":{"text":"Остальные не работали по разным причинам: вызывались несуществующие методы, была нарушена логика работы, переданы неправильные аргументы. Во всех случаях, chatgpt самостоятельно не нашёл ошибки. "}},{"type":"header2","data":{"level":2,"text":"Итог"}},{"type":"paragraph","data":{"text":"Chatgpt справился с поставленными задачами. Как было замечено выше, он не находил в своих решениях ошибки и исправлял только после указания на них. Я решил узнать об этом:"}},{"type":"paragraph","data":{"text":"> Почему ты написал код не правильно?"}},{"type":"paragraph","data":{"text":"

> Как именно был написан код, я не могу сказать, так как его не видел. Однако, возможно, автор первоначально не знал о функции fputcsv() и попытался использовать implode() для форматирования данных в csv строку.

"}},{"id":"51ff0b65-e4a3-407a-b541-846d88786f70","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"> То есть ты используешь не проверенные данные для ответов?"}},{"type":"paragraph","data":{"text":"

> Как искусственный интеллект, я не могу использовать "проверенные данные", так как я не имею личного опыта или восприятия. Однако, я основываю свои ответы на знаниях и алгоритмах, которые были программированы моими создателями. Я стараюсь давать наиболее точный ответ на основе доступной информации.

"}},{"type":"paragraph","data":{"text":"Да, chatgpt не пишет код, он его синтезирует. Он любит выдумывать и попытается убедить в этом Вас. Но это не мешает ему быть очень полезным инструментом. Если было полезно, ставьте классы. Всем добра!"}}]}

Ошибка в настройках сайта