{"blocks":[{"type":"paragraph","data":{"text":"Вместе с факультетом Data Science GeekUniversity собрали для вас задачи для практики по самым популярным Python-библиотекам в Data Science: pandas, NumPy и DataTable. Решать задачи можно в любом порядке."}},{"type":"paragraph","data":{"text":"Обратите внимание, что у любой задачи может быть несколько способов решения. Чтобы посмотреть добавленный нами вариант решения, кликните по соответствующей кнопке. Все приведённые варианты написаны на Python 3."}},{"type":"header2","data":{"level":2,"text":"Задачи по pandas"}},{"type":"header3","data":{"level":3,"text":"Задача 1"}},{"type":"paragraph","data":{"text":"Как найти евклидово расстояние между двумя Series (точками) a и b, не используя встроенную формулу?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"a = pd.Series([2, 4, 6, 8])\r\nb = pd.Series([1, 3, 5, 7])","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Ожидаемый вывод:"}},{"type":"code","data":{"code":"2.0","language":"bash lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\na = pd.Series([2, 4, 6, 8]\\r\\nb = pd.Series([1, 3, 5, 7])\\r\\n\\r\\n# Решение \\r\\nsum((a - b)**2)**.5\\r\\n\\r\\n# Решение (с использованием функции из NumPy)\\r\\nnp.linalg.norm(a-b)\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 2"}},{"type":"paragraph","data":{"text":"Как найти максимально возможное абсолютное значение корреляции каждого столбца с другими столбцами в df?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\ndf = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))\\r\\n\\r\\n# Решение\\r\\nabs_corr = np.abs(df.corr())\\r\\nmax_corr = abs_corr.apply(lambda x: sorted(x)[-2])\\r\\nprint('Максимальное значение корреляции для каждого столбца: ', np.round(max_corr.tolist(), 2))\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"Максимальное значение корреляции для каждого столбца: [0.58 0.58 0.76 0.76]\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 3"}},{"type":"paragraph","data":{"text":"Как нормализовать все столбцы в DataFrame?"}},{"type":"list","data":{"items":["Нормализуйте все столбцы df путём вычитания среднего значения столбца и деления на стандартное отклонение.","Сделайте так, чтобы все значения в df находились в диапазоне от 0 до 1."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4))","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\ndf = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4))\\r\\n\\r\\n# Первая часть решения\\r\\npart1 = df.apply(lambda x: ((x - x.mean()) / x.std()).round(2))\\r\\nprint('Первая часть\\\\n', part1)\\r\\n\\r\\n# Вторая часть решения\\r\\npart2 = df.apply(lambda x: ((x.max() - x) / (x.max() - x.min())).round(2))\\r\\nprint('Вторая часть\\\\n', part2)\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"Первая часть\\r\\n 0 1 2 3\\r\\n0 -1.11 -0.87 0.43 0.61\\r\\n1 -0.57 0.83 -0.50 -0.38\\r\\n2 0.72 0.91 -1.09 -1.23\\r\\n3 0.96 -0.87 1.17 0.99\\r\\nВторая часть\\r\\n 0 1 2 3\\r\\n0 1.00 1.00 0.33 0.17\\r\\n1 0.74 0.05 0.74 0.62\\r\\n2 0.12 0.00 1.00 1.00\\r\\n3 0.00 1.00 0.00 0.00\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 4"}},{"type":"paragraph","data":{"text":"Как объединить два DataFrame по двум столбцам так, чтобы остались только общие строки?"}},{"type":"paragraph","data":{"text":"Объедините df1 и df2 по столбцам fruit-frukt и weight-ves."}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,\r\n 'weight': ['low', 'medium', 'high'] * 3,\r\n 'price': np.random.randint(0, 100, 9)})\r\n\r\ndf2 = pd.DataFrame({'frukt': ['apple', 'banana', 'melon'] * 2,\r\n 'ves': ['low', 'high'] * 3,\r\n 'price': np.random.randint(0, 100, 6)})","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\ndf1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,\\r\\n 'weight': ['low', 'medium', 'high'] * 3,\\r\\n 'price': np.random.randint(0, 100, 9)})\\r\\n\\r\\ndf2 = pd.DataFrame({'frukt': ['apple', 'banana', 'melon'] * 2,\\r\\n 'ves': ['low', 'high'] * 3,\\r\\n 'price': np.random.randint(0, 100, 6)})\\r\\n\\r\\n# Решение\\r\\npd.merge(df1, df2, how='inner', left_on=['fruit', 'weight'], right_on=['frukt', 'ves'], suffixes=['_left', '_right'])\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 5"}},{"type":"paragraph","data":{"text":"Как узнать частоту уникальных значений во всём DataFrame?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"df = pd.DataFrame(np.random.randint(1, 10, 16).reshape(4, 4), columns=list('abcd'))","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\ndf = pd.DataFrame(np.random.randint(1, 10, 16).reshape(4, 4), columns=list('abcd'))\\r\\n\\r\\n# Решение\\r\\npd.value_counts(df.values.ravel())\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"2 5\\r\\n8 4\\r\\n9 2\\r\\n6 2\\r\\n5 1\\r\\n3 1\\r\\n1 1\\r\\ndtype: int64\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 6"}},{"type":"paragraph","data":{"text":"Как создать новый столбец, который содержит номера ближайших по евклидовому расстоянию столбцов?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"df = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))\r\ndf\r\n# e f g h\r\n# a 51 57 11 15\r\n# b 63 5 81 48\r\n# c 7 63 98 88\r\n# d 6 31 29 37","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Ожидаемый вывод:"}},{"type":"code","data":{"code":"df\r\n# e f g h nearest_row dist\r\n# a 51 57 11 15 c 122.0\r\n# b 63 5 81 48 a 94.0\r\n# c 7 63 98 88 a 122.0\r\n# d 6 31 29 37 c 92.0","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\ndf = pd.DataFrame(np.random.randint(1, 100, 16).reshape(4, 4), columns=list('efgh'), index=list('abcd'))\\r\\n\\r\\nimport numpy as np\\r\\n\\r\\n# Инициализация выводов\\r\\nnearest_rows = []\\r\\nnearest_distance = []\\r\\n\\r\\n# Проход по строкам\\r\\nfor i, row in df.iterrows():\\r\\n curr = row\\r\\n rest = df.drop(i)\\r\\n dists = {} # инициализируем словарь для евклидовых расстояния для текущей строки\\r\\n # проходим по оставшимся строкам текущей строки\\r\\n for j, contestant in rest.iterrows():\\r\\n # вычисляем евклидово расстояние и обновляем dists\\r\\n \\r\\n dists.update({j: round(np.linalg.norm(curr.values - contestant.values))})\\r\\n # приравниваем текущую строку к ближайшей и записываем значение расстояния=\\r\\n nearest_rows.append(max(dists, key=dists.get))\\r\\n nearest_distance.append(max(dists.values()))\\r\\n\\r\\ndf['nearest_row'] = nearest_rows\\r\\ndf['dist'] = nearest_distance\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header2","data":{"level":2,"text":"Задачи по NumPy"}},{"type":"header3","data":{"level":3,"text":"Задача 7"}},{"type":"paragraph","data":{"text":"Как поменять местами две строки в двумерном массиве NumPy? Поменяйте местами строки 1 и 3 массива a."}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"a = np.arange(9).reshape(3,3)","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\na = np.arange(9).reshape(3,3)\\r\\n\\r\\n# Решение\\r\\na[[2, 1, 0], :]\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"array([[6, 7, 8],\\r\\n [3, 4, 5],\\r\\n [0, 1, 2]])\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 8"}},{"type":"paragraph","data":{"text":"Как найти количество уникальных значений в массиве NumPy? Найдите уникальные значения и их количество в столбце species таблицы iris."}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'\r\niris = np.genfromtxt(url, delimiter=',', dtype='object')","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\nurl = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'\\r\\niris = np.genfromtxt(url, delimiter=',', dtype='object')\\r\\n\\r\\n# Решение\\r\\n# Извлекаем столбец species как массив\\r\\nspecies = np.array([row.tolist()[4] for row in iris])\\r\\n\\r\\n# Получаем уникальные значения и их количество\\r\\nnp.unique(species, return_counts=True)\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"(array([b'Iris-setosa', b'Iris-versicolor', b'Iris-virginica'],\\r\\n dtype='|S15'), array([50, 50, 50]))\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 9"}},{"type":"paragraph","data":{"text":"Как найти второе максимальное значение в массиве, который сгруппирован по другому массиву? Найдите значение второго самого длинного petallength вида setosa в таблице iris."}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'\r\niris = np.genfromtxt(url, delimiter=',', dtype='object')","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"paragraph\",\"data\":{\"text\":\"Решение:\"}},{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\nurl = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'\\r\\niris = np.genfromtxt(url, delimiter=',', dtype='object')\\r\\n\\r\\n# Решение\\r\\n# Извлекаем столбцы вида и длины лепестков\\r\\nsetosa_petal_len = iris[iris[:, 4] == b'Iris-setosa', [2]].astype('float')\\r\\n\\r\\n# Получаем второе значение с конца\\r\\nnp.unique(np.sort(setosa_petal_len))[-2]\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"1.7\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 10"}},{"type":"paragraph","data":{"text":"Как отранжировать элементы массива NumPy?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"a = np.random.randint(100, size=10)\r\nprint(a)\r\n# [9 15 64 28 89 93 29 8 73 0]","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Ожидаемый вывод:"}},{"type":"code","data":{"code":"[2 3 6 4 8 9 5 1 7 0]","language":"bash lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\na = np.random.randint(100, size=10)\\r\\n\\r\\n# Решение\\r\\nprint(a.argsort().argsort())\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 11"}},{"type":"paragraph","data":{"text":"Как найти результат деления минимального значения на максимальное в каждой строке двумерного массива?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"np.random.seed(10)\r\na = np.random.randint(1, 10, [3, 3])\r\na\r\n# array([[5, 1, 2],\r\n# [1, 2, 9],\r\n# [1, 9, 7]])","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\nnp.random.seed(10)\\r\\na = np.random.randint(1, 10, [3, 3])\\r\\n\\r\\n# Решение\\r\\nnp.apply_along_axis(lambda x: np.min(x) / np.max(x), arr=a, axis=1)\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"array([0.2, 0.11111111, 0.11111111])\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 12"}},{"type":"paragraph","data":{"text":"Как найти повторяющиеся значения в массиве NumPy? Найдите повторяющиеся значения (начиная со второго вхождения) в заданном массиве и отметьте их как True. Первое вхождение отмечайте как False."}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"np.random.seed(10)\r\na = np.random.randint(0, 7, 10)\r\nprint(a)\r\n# [1 5 4 0 1 3 4 1 5 0]","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Ожидаемый вывод:"}},{"type":"code","data":{"code":"[False False False False True False True True True True]","language":"bash lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\nnp.random.seed(10)\\r\\na = np.random.randint(0, 7, 10)\\r\\n\\r\\n# Решение\\r\\n\\r\\n# Создаём массив с True\\r\\nout = np.full(a.shape[0], True)\\r\\n\\r\\n# Находим индексы уникальных элементов\\r\\npos = np.unique(a, return_index=True)[1]\\r\\n\\r\\n# Помечаем их как False\\r\\nout[pos] = False\\r\\n\\r\\nprint(out)\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 13"}},{"type":"paragraph","data":{"text":"Как удалить из массива NumPy строки, которые содержат nan?"}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'\r\niris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0, 1, 2, 3])\r\niris[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"paragraph\",\"data\":{\"text\":\"Решение:\"}},{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\nurl = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'\\r\\niris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0, 1, 2, 3])\\r\\niris[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan\\r\\n\\r\\n# Решение\\r\\n# Способ 1:\\r\\nnan_in_row = np.array([~np.any(np.isnan(row)) for row in iris])\\r\\niris[nan_in_row][:5]\\r\\n\\r\\n# Способ 2:\\r\\niris[np.sum(np.isnan(iris), axis = 1) == 0][:5]\",\"language\":\"python lazy-code\"}},{\"type\":\"paragraph\",\"data\":{\"text\":\"Вывод:\"}},{\"type\":\"code\",\"data\":{\"code\":\"array([[ 4.9, 3. , 1.4, 0.2],\\r\\n [ 4.7, 3.2, 1.3, 0.2],\\r\\n [ 4.6, 3.1, 1.5, 0.2],\\r\\n [ 5. , 3.6, 1.4, 0.2],\\r\\n [ 5.4, 3.9, 1.7, 0.4]])\",\"language\":\"bash lazy-code\"}}]}"}},{"type":"header2","data":{"level":2,"text":"Задачи по DataTable"}},{"type":"header3","data":{"level":3,"text":"Задача 14"}},{"type":"paragraph","data":{"text":"Как сделать left join двух объектов datatable.Frame? Объедините заданные объекты по ключу А."}},{"type":"paragraph","data":{"text":"Ввод:"}},{"type":"code","data":{"code":"import datatable as dt\r\ndf1 = dt.Frame(A=[1, 2, 3, 4], B=['a', 'b', 'c', 'd'])\r\ndf2 = dt.Frame(A=[1, 2, 3, 4, 5], C=['a2', 'b2', 'c2', 'd2', 'e2'])","language":"python lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"code\",\"data\":{\"code\":\"# Ввод\\r\\nimport datatable as dt\\r\\ndf1 = dt.Frame(A=[1, 2, 3, 4], B=['a', 'b', 'c', 'd'])\\r\\ndf2 = dt.Frame(A=[1, 2, 3, 4, 5], C=['a2', 'b2', 'c2', 'd2', 'e2'])\\r\\n\\r\\n# Решение\\r\\ndf2.key = 'A'\\r\\noutput = df1[:, :, dt.join(df2)]\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 15"}},{"type":"paragraph","data":{"text":"Как преобразовать datatable.Frame в формат Pandas, NumPy, словаря, списка, кортежа, CSV-файла? Датасет из примера."}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"paragraph\",\"data\":{\"text\":\"Решение:\"}},{\"type\":\"code\",\"data\":{\"code\":\"import datatable as dt\\r\\ndf = dt.fread('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')\\r\\n\\r\\n# в DataFrame Pandas\\r\\npd_df = df.to_pandas()\\r\\n\\r\\n# в массив NumPy\\r\\narr = df.to_numpy()\\r\\n\\r\\n# в словарь\\r\\ndict_ = df.to_dict()\\r\\n\\r\\n# в список\\r\\nlist_ = df[:, 'medv'].to_list()\\r\\n\\r\\n# в кортеж\\r\\ntuples_ = df[:, 'medv'].to_tuples()\\r\\n\\r\\n# в CSV \\r\\ndf.to_csv('BostonHousing.csv')\",\"language\":\"python lazy-code\"}}]}"}},{"type":"header3","data":{"level":3,"text":"Задача 16"}},{"type":"paragraph","data":{"text":"Как узнать типы данных всех столбцов в datatable.Frame? Датасет из примера."}},{"type":"paragraph","data":{"text":"Ожидаемый вывод:"}},{"type":"code","data":{"code":"crim : stype.float64\r\nzn : stype.float64\r\nindus : stype.float64\r\nchas : stype.bool8\r\nnox : stype.float64\r\nrm : stype.float64\r\nage : stype.float64\r\ndis : stype.float64\r\nrad : stype.int32\r\ntax : stype.int32\r\nptratio : stype.float64\r\nb : stype.float64\r\nlstat : stype.float64\r\nmedv : stype.float64","language":"bash lazy-code"}},{"type":"accordion","data":{"title":"Вариант решения","content":"{\"blocks\":[{\"type\":\"paragraph\",\"data\":{\"text\":\"Решение:\"}},{\"type\":\"code\",\"data\":{\"code\":\"import datatable as dt\\r\\n\\r\\ndf = dt.fread('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv')\\r\\nfor i in range(len(df.names)):\\r\\n print(df.names[i], ':', df.stypes[i])\",\"language\":\"python lazy-code\"}}]}"}}]}

Ошибка в настройках сайта