{"blocks":[{"type":"paragraph","data":{"text":"Сложность задачи заключается в том, что адресов дано 10 миллиардов. Сколько пространства понадобится для хранения 10 миллиардов URL-адресов? Если в среднем URL-адрес занимает 100 символов, а каждый символ представляется 4 байтами, то для хранения списка из 10 миллиардов URL понадобится около 4 Тбайт. Скорее всего, нам не понадобится хранить так много информации в памяти."}},{"type":"paragraph","data":{"text":"Давайте попробуем сначала решить упрощенную версию задачи. Представим, что в памяти хранится весь список URL. В этом случае можно создать хэш-таблицу, где каждому дублирующемуся URL ставится в соответствие значение true (альтернативное решение: можно просто отсортировать список и найти дубликаты, это займет некоторое время, но даст и некоторые преимущества)."}},{"type":"paragraph","data":{"text":"Теперь, когда у нас есть решение упрощенной версии задачи, можно перейти к 400 Гбайт данных, которые нельзя хранить в памяти полностью. Давайте сохраним некоторую часть данных на диске или разделим данные между компьютерами."}},{"type":"header3","data":{"level":3,"text":"Решение 1: хранение данных на диске"}},{"type":"paragraph","data":{"text":"Если мы собираемся хранить все данные на одной машине, то нам понадобится двойной проход документа. На первом проходе мы разделим список на 400 фрагментов по 1 Гбайт в каждом. Простой способ — хранить все URL-адреса и в файле <x>.txt, где х = hash(u) % 400. Таким образом, мы разбиваем URL-адрсса по хэш-значениям. Все URL-адреса с одинаковым хэш-значением окажутся в одном файле."}},{"id":"5b0bdae5-62c5-4e21-ad77-d2a71755c701","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"На втором проходе можно использовать придуманное ранее решение: загрузить файл в память, создать хэш-таблицу URL-адресов и найти повторы."}},{"type":"header3","data":{"level":3,"text":"Решение 2: много компьютеров"}},{"type":"paragraph","data":{"text":"Этот алгоритм очень похож на предыдущий, но для хранения данных используются разные компьютеры. Вместо того чтобы хранить данные в файле <x>.txt, мы отправляем их на машину х."}},{"type":"paragraph","data":{"text":"У данного решения есть преимущества и недостатки."}},{"type":"paragraph","data":{"text":"Основное преимущество заключается в том, что можно организовать параллельную работу так, чтобы все 400 блоков обрабатывались одновременно. Для больших объемов данных мы получаем больший выигрыш во времени."}},{"type":"paragraph","data":{"text":"Недостаток заключается в том, что все 400 машин должны работать без сбоев, что на практике (особенно с большими объемами данных и множеством компьютеров) не всегда получается. Поэтому необходимо предусмотреть обработку отказов."}},{"type":"paragraph","data":{"text":"Оба решения хороши и оба имеют право на существование."}},{"type":"paragraph","data":{"text":"Разбор взят из книги Гейл Л. Макдауэлл «Cracking the Coding Interview» (есть в переводе)."}},{"type":"paragraph","data":{"text":" "}}]}

Ошибка в настройках сайта