10 вопросов на позицию специалиста по Data Science

Question 1

Ответ

Answer

(Б) Эти два события не могут быть несовместными так как P(A)+P(B) > 1

Question 2

Ответ

Answer

(A) Чтобы все результаты были уникальными, у нас есть 6 вариантов для первого хода, 5 для второго хода, 4 для третьего хода и так далее.

Question 3

Ответ

Answer

(A) Если выбрана монета A, то количество раз, когда монета будет подброшена для гарантированного орла, равно 2, аналогично для монеты Б это 3. Таким образом, количество раз будет:

Tosses=2*(1/4)[вероятность выбора A]+3*(3/4)[вероятности выбора Б] = 2.7

Question 4

Ответ

Answer

(A) Вероятность того, что потомство будет красным, составляет 0,25, таким образом, вероятность того, что потомство не будет красным, составляет 0,75. Поскольку все пары независимы друг от друга, вероятность того, что все потомки не красные, будет (0,75)^ 5 = 0,237. Вы можете думать об этом как о биноме со всеми ошибками.

Question 5

Ответ

Answer

(В) Общее количество возможных комбинаций, когда два человека не могут иметь один и тот же день рождения в классе из 30 человек, составляет 30 * (30-1) / 2 = 435.

Итак, в году 365 дней (при условии, что это не високосный год). Таким образом, вероятность того, что у людей будет другой день рождения, будет 364/365. Теперь возможно 870 комбинаций. Таким образом, вероятность того,что у двух людей один и тот же день рождения, равна (364/365) ^ 435 = 0,303. Следовательно, вероятность того, что у двух людей дни рождения будут в один и тот же день, будет 1 – 0,303 = 0,696

Question 6

Ответ

Answer

Вариантов ответа множество, приведенный ниже – это только пример размышления на заданную тему.

– Поскольку у нас мала оперативной памяти, мы должны закрыть все другие приложения на нашем компьютере, включая веб-браузер, чтобы можно было использовать большую часть памяти.

– Мы можем случайным образом выбрать набор данных. Это означает, что мы можем создать меньший набор данных, скажем, имеющий 1000 переменных и 300000 строк, и провести вычисления.

– Чтобы уменьшить размерность, мы можем разделить числовые и категориальные переменные и удалить коррелированные переменные. Для числовых переменных мы будем использовать корреляцию. Для категориальных переменных мы будем использовать критерий хи-квадрат.

– Кроме того, мы можем использовать PCA и выбрать компоненты, которые могут объяснить максимальную дисперсию в наборе данных.

– Возможным вариантом является использование алгоритмов онлайн-обучения, таких как Vowpal Wabbit (доступный на Python).

– Также полезно построение линейной модели с использованием стохастического градиентного спуска.

– Мы также можем применить наше понимание бизнеса для сокращения данных. Но это интуитивный подход, неспособность определить полезные данные может
привести к значительной потере информации.

Question 7

Ответ

Answer

В этом вопросе достаточно подсказок, чтобы вы начали думать!

Поскольку данные распределены по медиане, предположим, что это нормальное распределение. Мы знаем, что при нормальном распределении ~ 68% данных находится в пределах 1 стандартного отклонения от среднего (или модового, медианного), что оставляет неизменными ~ 32% данных. Следовательно, пропущенные значения не повлияют на ~ 32% данных.

Question 8

Ответ

Answer

Если вы опытный дата-саентист, вы должны сделать вывод, что обнаружение рака приводит к несбалансированности данных. В несбалансированном наборе данных точность не должна использоваться в качестве меры, потому что 96% (как указано) могут правильно предсказывать только класс большинства, но наш интересующий класс – это класс меньшинства (4%), то есть люди, которые фактически получили факт диагностирования рака. Следовательно, чтобы оценить производительность модели, мы должны использовать:
– Sensitivity (True Positive Rate)
– Specificity (True Negative Rate)
– F-measure

Еще можно предпринять следующие шаги:
– Мы можем использовать undersampling/oversampling или SMOTE, чтобы сбалансировать данные.
– Мы можем изменить пороговое значение прогноза, выполнив калибровку вероятности и найдя оптимальный порог с помощью кривой AUC-ROC.
– Мы можем назначить вес классам, чтобы классы меньшинства получали больший вес.
– Мы также можем использовать методы обнаружения аномалий.

Question 9

Ответ

Answer

Вариантов ответа множество, ниже приведен только пример.

Такая ситуация возникает, когда прогнозируемые значения модели близки к фактическим. Другими словами, модель становится достаточно гибкой, чтобы имитировать распределение обучающих данных. Хотя это звучит как большое достижение, но не стоит забывать, что такая модель не имеет возможностей обобщения. Когда эта модель тестируется на данных, которые она не видела, она дает плохие результаты.

Мы можем использовать алгоритмы bagging-а (например, случайный лес), чтобы решить проблему с high variance. Алгоритмы делят набор данных на подмножества, созданные с помощью повторной рандомизированной выборки. Затем эти образцы используются для создания набора моделей с использованием единого алгоритма обучения. Позже прогнозы модели объединяются с использованием голосования (классификация) или усреднения (регрессия).

Кроме того, для борьбы мы можем:
– Использовать метод регуляризации, при котором более высокие коэффициенты модели штрафуются, что снижает сложность модели.
– Использовать первые n переменных из таблицы важности. Возможно, со всеми переменными в наборе данных алгоритм испытывает трудности с поиском значимого сигнала.

Question 10

Ответ

Answer

Принципиальная разница в том, что для прогнозов случайный лес использует технику bagging-а. GBM использует методы boosting-а, чтобы делать прогнозы.

В методе bagging-а набор данных делится на n выборок с использованием рандомизированной выборки. Затем с использованием единого алгоритма обучения модель строится на всех образцах. Позже полученные прогнозы объединяются с помощью голосования или усреднения. Bagging производится параллельно. При boosting-e после первого раунда прогнозов алгоритм взвешивает неверно классифицированные прогнозы выше, чтобы их можно было исправить в следующем раунде. Этот последовательный процесс присвоения более высоких весов ошибочно классифицированным прогнозам продолжается до тех пор, пока не будет достигнут критерий остановки.

Случайный лес повышает точность модели за счет уменьшения дисперсии (в основном). Деревья не коррелированы для максимального уменьшения дисперсии. С другой стороны, GBM повышает точность, уменьшая как смещение, так и дисперсию модели.

10 вопросов на позицию специалиста по Data Science

5 вопросов по теории вероятности

5 вопросов по машинному обучению