{"blocks":[{"type":"paragraph","data":{"text":"Предположим, что нам требуется разработать алгоритм, демонстрирующий связи человека с человеком, но при условии, что база очень большая. Например, для использования в Facebook или LinkedIn."}},{"type":"paragraph","data":{"text":"Хороший способ решить эту задачу — устранить ограничения и сначала разобраться с упрощенной версией."}},{"type":"header3","data":{"level":3,"text":"Шаг 1. Упрощаем задачу — забудьте о миллионах пользователей"}},{"type":"paragraph","data":{"text":"Прежде всего, давайте забудем, что имеем дело с миллионами пользователей. Найдем решение для простого случая."}},{"type":"paragraph","data":{"text":"Можно создать граф и рассматривать каждого человека как узел, а существование связи между двумя узлами говорит, что пользователи — друзья."}},{"type":"code","data":{"code":"class Person {\r\n\tPerson[] friends;\r\n\t// Другая информация\r\n}","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"При необходимости нахождения связи между людьми, очевидно, стоит использовать всеми известный алгоритм поиска в ширину."}},{"type":"paragraph","data":{"text":"Почему не в глубину? Это очень неэффективно. Два пользователя могут быть «соседями», но нам придется просмотреть миллионы узлов в их поддеревьях, прежде чем связь обнаружится."}},{"type":"header3","data":{"level":3,"text":"Шаг 2. Возвращаемся к миллионам пользователей"}},{"type":"paragraph","data":{"text":"Когда мы имеем дело с огромными сервисами Linkedln или Facebook, то не можем хранить все данные на одном компьютере. Это означает, что простая структура данных Person не будет работать — наши друзья могут оказаться на разных компьютерах. Таким образом, нам нужно заменить списки друзей списками их ID и работать с ними следующим образом:"}},{"type":"list","data":{"items":["Для каждого ID друга: int machine_index = getMachineIDForUser(personID).","Переходим на компьютер #machine_index.","На этом компьютере делаем: Person friend = getPersonWithID(person_id)."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Приведенный далее код демонстрирует этот процесс. Мы определили класс Server, хранящий список всех компьютеров, и класс Machine, представляющий отдельную машину. У обоих классов есть хэш-таблицы, обеспечивающие эффективный поиск данных."}},{"type":"code","data":{"code":"public class Server {\r\n\tHashMap();\r\n\tHashMap();\r\n\tpublic Machine getMachineWithId(int machinelD) {\r\n\t\treturn machines.get(machineID);\r\n\t}\r\n\r\n\tpublic int getMachineIDForUser(int personID) {\r\n\t\tInteger machinelD = personToMachineMap.get(personID);\r\n\t\treturn machineID == null ? -1 : machineID;\r\n\t}\r\n\r\n\tpublic Person getPersonWithID(int personID) {\r\n\t\tInteger machineID = personToMachineMap.get(personID);\r\n\t\tif (machineID == null)\r\n\t\t\treturn null;\r\n\t\tMachine machine = getMachineWithId(machineID);\r\n\t\tif (machine == null) return null;\r\n\t\treturn machine.getPersonWithID(personID);\r\n\t}\r\n}\r\npublic class Person {\r\n\tprivate ArrayList friendIDs;\r\n\tprivate int personID;\r\n\tpublic Person(int id) { this.personID = id; }\r\n\r\n\tpublic int getID() { return personID; }\r\n\r\n\tpublic void addFriend(int id) { friends.add(id); }\r\n}\r\npublic class Machine {\r\n\tpublic HashMap persons = new HashMap();\r\n\tpublic int machinelD;\r\n\tpublic Person getPersonWithID(int personID) {\r\n\t\treturn persons.get(personID);\r\n\t}\r\n}","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Существует несколько направлений оптимизации и дополнительные вопросы, которые следует обсудить."}},{"type":"header3","data":{"level":3,"text":"Оптимизация: сократите количество переходов между компьютерами"}},{"type":"paragraph","data":{"text":"«Путешествие» с одной машины на другую — дорогая операция (с точки зрения системных ресурсов). Вместо перехода с машины на машину в произвольном порядке работайте в пакетном режиме. Например, если пять друзей «живут» на одной машине, сначала получите информацию о них."}},{"type":"header3","data":{"level":3,"text":"Оптимизация: разумное «деление» людей и машин"}},{"type":"paragraph","data":{"text":"Чаще всего друзья живут в одной и той же стране. Вместо того чтобы делить данные о пользователях по произвольному принципу, попытайтесь использовать информацию о стране, городе, состоянии и т. д. Эго сократит количество переходов между машинами."}},{"type":"header3","data":{"level":3,"text":"Вопрос: при поиске в ширину необходимо помечать посещенные узлы. Как это сделать?"}},{"type":"paragraph","data":{"text":"При поиске в ширину мы устанавливаем флаг visited для посещенных узлов и храним его в классе узла. В нашем случае так поступать нельзя. Поскольку одновременно выполняется множество запросов, данный подход помешает редактировать данные. Вместо этого можно имитировать маркировку узлов с помощью хэш-таблицы, в которой будет храниться id узла и отметка, посещен он или нет."}},{"type":"header3","data":{"level":3,"text":"Другие насущные вопросы:"}},{"type":"list","data":{"items":["В реальном мире происходят сбои серверов. Как это повлияет на проект?","Как можно использовать кэширование?","Вы производите поиск до конца графа? (Граф может быть бесконечным.) Когда нужно остановиться?","Некоторые люди имеют больше друзей, чем другие, следовательно, более вероятно, что таким образом можно найти связь между вами и кем-то еще. Как использовать эти данные, чтобы выбрать место, где начинать обход графа?"],"style":"unordered"}},{"type":"paragraph","data":{"text":"Это всего лишь некоторые из множества вопросов, которые могут возникнуть у вас при реализации такого алгоритма."}},{"type":"paragraph","data":{"text":"Разбор взят из книги Гейл Л. Макдауэлл «Cracking the Coding Interview» (есть в переводе)."}}]}

Ошибка в настройках сайта