Обложка статьи «Как оптимизировать работу в Jupyter Notebook»

Как оптимизировать работу в Jupyter Notebook

Перевод статьи «Tips, Tricks, Hacks, and Magic: How to Effortlessly Optimize Your Jupyter Notebook»

Jupyter Notebook (ранее известный как IPython Notebook) — веб-оболочка для нескольких языков программирования: Julia, Python и R. Это одна из множества технологий, которые позволяют делать жизнь людей проще и лучше. Но установка пакета — только начало, есть множество вещей, которые можно доработать, чтобы сделать процесс разработки ещё удобнее.

В этой статье предполагается, что вы мало знакомы с Jupyter Notebook. Прежде чем мы перейдём к более хитрым трюкам, речь пойдёт о базовых вещах.

Если вы только открываете для себя эту тему, лучше сначала изучить вопрос с установкой и работой Anaconda.

Начало работы

После установки можно сразу приступить к работе. Для этого необходимо выполнить следующее:

$ jupyter notebook

Смена темы оформления

Чтобы настроить многими любимый тёмный режим, нужно зайти в терминал и установить Jupyterthemes:

$ pip install jupyterthemes

Теперь можно установить тёмную тему:

$ jt -t chesterish

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Восстановить основную тему можно в любое время:

$ jt -r

Найти Jupyterthemes можно в репозитории на GitHub.

Основные команды

Быстро получить доступ к сочетаниям клавиш можно с помощью комбинаций Ctrl+Shift+P или Cmd+Shift+P, тогда откроется диалоговое окно, похожее на Spotlight Search на Mac. Это поможет вам запустить любую команду по имени, что очень удобно, когда ещё не знаешь нужного сочетания клавиш.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Shift+Enter позволяет запустить текущую ячейку.

Esc переводит в командный режим. Он позволяет перемещаться по документу с помощью клавиш-стрелок.

В командном режиме можно использовать:

  • А, чтобы вставить новую ячейку над текущей ячейкой;
  • B, чтобы вставить новую ячейку под текущей ячейки;
  • M, чтобы изменить текущую ячейку на Markdown;
  • Y, чтобы перейти обратно в кодовую ячейку;
  • D+D (двойное нажатие клавиши), чтобы удалить текущую ячейку;
  • Enter, чтобы вернуться из командного режима в режим редактирования.

Shift+Tab — покажет документацию для объекта, который вы только что ввели в ячейку кода. Для переключения между несколькими режимами продолжайте нажимать это сочетание клавиш.
Esc+F — поможет найти и заменить информацию в коде (кроме выходных данных).
Esc+0 — переключает вывод ячейки.
Shift+J (или Shift+Down) — выделяет ячейки ниже текущей. Shift+K (или Shift+Up) выделяет ячейки выше текущей. Как только ячейки выбраны, их можно удалить/скопировать/вырезать/вставить/запустить как пакет. Это удобно, когда нужно переместить только часть документа.
Shift+M — позволяет объединить несколько ячеек.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Кроме того, в документе можно запускать bash-команды, если в начале поставить восклицательный знак:

!pip install numpy

Чтобы отключить отображение результата выражения в последней строчке ячейки, добавьте в конце последней строчки точку с запятой (;).

Комментирование/раскомментирование блока кода

Добавить новые строки кода и закомментировать старые можно сочетанием клавиш. Выделите все нужные строки и нажмите Cmd + /, это закомментирует выделенный код.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

LaTex

Вы можете писать на LaTex в Markdown-ячейках, и они будет отображены в виде формулы.

$P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}$

Данная строка будет преобразована в следующую формулу:

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Отображение данных из всех ячеек

По умолчанию отображается только последний вывод в ячейке. Для всего остального необходимо вручную добавить print(). Такой вариант хорош, но не очень удобен. Можно изменить это, добавив вверху документа следующее:

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

Отображение по умолчанию:

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Отображение всех ячеек:

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Чтобы вернуться к настройкам по умолчанию, выполните следующее:

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "last_expr"

Изменение настроек следует запускать в отдельной ячейке, чтобы оно вступило в силу при следующем запуске ячейки.

Расширения

Поскольку Jupyter Notebook имеет открытый исходный код, для него было разработано множество расширений. Вы можете поработать с официальным списком расширений IPython или посмотреть другие популярные расширения.

Вы можете установить Nbextensions в любое время из командной строки.

С помощью pip:

$ pip install jupyter_contrib_nbextensions
$ jupyter contrib nbextension install --user

Или с помощью Anaconda:

$ conda install -c conda-forge jupyter_contrib_nbextensions
$ conda install -c conda-forge jupyter_nbextensions_configurator
$ jupyter contrib nbextension install --user

Как только они будут установлены, вы увидите вкладку Nbextensions.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

В этом репозитории можно узнать больше о расширениях, об их включении в ваш документ и исключении из него.

Для работы просто нажмите «Nbextensions» в верхней части экрана, выберите интересующее вас расширение, а затем прокрутите вниз, чтобы найти нужную информацию.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Популярные расширения

  • Scratchpad —  позволяет создать временную ячейку для выполнения быстрых вычислений без создания новой ячейки в workbook.
  • Hinterland —  делает доступным меню автозаполнения кода для каждого нажатия клавиши в ячейке кода, а не только для клавиши Tab.
  • Snippets —  добавляет раскрывающееся меню для вставки фрагментов в текущий документ.
  • Autopep8  —  автоматически форматирует код на Python в соответствии со стилевым руководством PEP 8. Убедитесь, что на локальной машине выполнена команда $ pip install autopep8 --user. Это гарантирует, что вы будете следовать правильным соглашениям о написании кода в Python.
  • Split Cells Notebook —  позволяет разделять ячейки. Войдите в командный режим и используйте Shift+S, чтобы переключить текущую ячейку между разделённой и полной шириной.
  • Table of Contents —  позволяет собирать все запущенные заголовки и отображать их в плавающем окне, в виде боковой панели или с помощью меню навигации.
  • A Code Prettifier — очищает, форматирует и выравнивает ваш код за вас.
  • Notify  —  отображает уведомление на рабочем столе, когда ядро бездействует. Это удобно, когда вы запускаете код, выполнение которого занимает больше пары секунд.
  • Code Folding —  в режиме редактирования сбоку появляется треугольник, который позволяет скрывать блоки кода. Удобно, когда есть большие функции, которые вы хотите скрыть.
  • Zen mode —  делает детали менее загроможденными. Убедитесь, что фоны в настройках отключены.

Магия

Магия — это удобные команды, которые облегчают жизнь, когда вы хотите выполнить определённые задачи. Они часто выглядят как команды Unix, но все они реализованы на Python.

Есть два вида магии: строчная магия (применяется к одной строке) и магия ячейки (применяется ко всей ячейке). Строчная магия начинается с символа процента (%), а магия ячейки — с двух таких символов (%%).

Чтобы увидеть доступную магию, нужно запустить следующее:

%lsmagic

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Настройка среды разработки

Можно легко управлять переменными среды вашего документа с помощью %env без перезагрузок. Выполните эту команду без каких-либо переменных, она отобразит все ваши переменные среды.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Вставка кода

С помощью %load можно вставить код из внешнего скрипта.

%load basic_imports.py

Данная команда возьмёт файл basic_imports.py и загрузит его в ваш документ.

Экспорт содержимого ячейки

Это очень удобная функция. Она позволяет в любое время экспортировать содержимое ячейки с помощью %%writefile.

%%writefile thiscode.py
Здесь мог бы быть какой-нибудь ваш код или функция,
    которые вы хотите экспортировать
    и, возможно, использовать позже.

Это очень полезно, если вы используете один и тот же импорт в каждом документе или постоянно добавляете одну и ту же функцию. Теперь вы можете написать код один раз и использовать его везде.

Например, вы можете написать файл basic_imports.py, содержащий следующий код:

%%writefile basic_imports.py
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Это создаст файл .py, содержащий ваши основные импорты.

Дальше можно его загрузить в любое время, написав:

%load basic_imports.py

Выполнение этой команды заменяет содержимое ячейки загруженным файлом.

# %load imports.py
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Теперь вы можете снова запустить ячейку, чтобы импортировать все ваши модули.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Сохранение и повторное использование кода

Как и у большинства людей, у вас периодически могут быть одни и те же задания. Возможно, есть несколько уравнений, которые вы постоянно решаете, или несколько строк кода, которые вы создавали много раз. Jupyter позволяет сохранять фрагменты кода как исполняемые макросы. Поскольку макросы — это просто код, он может содержать переменные, которые должны быть определены перед выполнением.

name = 'Kitten'

Теперь, чтобы определить макрос, нужен код для использования. Можно сохранить практически всё, от строки до функции.

print('Hello, %s!' % name)
Hello, Kitten!

Для настройки макроса используется магия %macro и %load. Обычно принято имена макросов начинать с двойного подчеркивания, чтобы отличать их от других переменных.

%macro -q __hello_you 32

Магия %macro принимает имя и номер ячейки (или несколько номеров), а специальный ключ -q делает магию менее подробной. %store позволяет сохранить любую переменную для использования в других сессиях. В коде выше передаётся имя созданного макроса, чтобы можно было использовать его снова после выключения ядра или в других документах.

Чтобы загрузить макрос, достаточно выполнить следующее.

%load __hello_you

Чтобы выполнить макрос, можно просто запустить ячейку, которая содержит имя макроса.

__hello_you
Hello, Kitten!

Для наглядного примера измените переменную, использованную в макросе.

name = 'Muffins'

При запуске макроса захватывается измененное значение.

__hello_you
Hello, Muffins!

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Это работает, потому что макросы выполняют сохраненный код в пространстве имён ячейки. Если name будет не определено, вы получите ошибку.

Если вы хотите использовать один и тот же макрос во всех своих документах, в этом может помочь %store.

%store позволяет хранить макрос и использовать его во всех Jupyter Notebook.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

%store -r __hello_you
name = 'Rambo'
%load __hello_you
Hello, Rambo!

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Магия run

%run выполнит ваш код и отобразит любые выводные данные, включая графики Matplotlib. Таким образом можно выполнять даже целые документы. Также %run может выполнить код Python из файлов .py.

Магия pycat

Использование %pycat покажет содержимое скрипта, если вы не уверены, что в нём находится.

%pycat basic_imports.py

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Автосохранение

%autosave определяет, как часто ваш документ будет автоматически сохранять контрольные точки в файл.

%autosave 60

После данной команды автосохранение будет происходить каждые 60 секунд.

Отображение графиков

%matplotlib inline

Эта команда отобразит графики Matplotlib прямо в выводе ячейки. Это означает, что диаграммы и графики Matplotlib можно включать прямо в свои документы. Имеет смысл запустить команду в начале вашего документа, прямо в первой ячейке.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Измерение времени

Для измерения времени используются две магические команды IPython: %%time и %timeit. Они очень полезны, когда ваш код медленно выполняется и вы пытаетесь определить, в чём проблема. Они обе имеют как строковый режим, так и режим запуска из ячейки.

Основное различие между %timeit и %time состоит в том, что первая выполняет указанный код много раз и вычисляет среднее значение.

%%time даст вам информацию о единичном запуске кода в вашей ячейке.

%%timeit использует Python-модуль timeit, который выполняет выражение множество раз, а затем выдаёт среднее значение результатов. Вы можете указать количество запусков с помощью опции -n, количество повторов с помощью -r и т. д.

Запуск кода из другого ядра

Можно запустить выполнение ячейки с использованием указанного языка. Существуют расширения для нескольких языков. Есть опции вроде:

  • %%HTML,
  • %%python,
  • %%python2,
  • %%python3,
  • %%ruby,
  • %%perl,
  • %%capture,
  • %%javascript,
  • %%js,
  • %%latex,
  • %%markdown,
  • %%pypy.

Например, для рендеринга HTML в вашем документе вы должны выполнить следующее:

%%HTML
This is really neat!

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Вы также можете использовать LaTeX напрямую когда угодно:

%%latex
This is an equation: $E = mc^2$

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Магия who

Команда %who без аргументов выводит список всех переменных, существующих в глобальной области видимости. При передаче параметра, например str, будут перечислены только переменные этого типа:

%who str

Если набрать данную команду, результат будет следующим.

Иллюстрациия к статье «Как оптимизировать работу в Jupyter Notebook»

Магия prun

%prun показывает, сколько времени ваша программа потратила на каждую функцию. Использование %prun statement_name даёт упорядоченную таблицу, показывающую, сколько раз каждая внутренняя функция была вызвана в блоке. А также время, которое потребовалось на каждый вызов, и суммарное время всех запусков функции.

Магия отладчика в Python

Jupyter имеет собственный интерфейс для отладчика Python. Это позволяет заглянуть внутрь функции и посмотреть, что там происходит. Включить эту магию можно, запустив %pdb в начале ячейки.

Графики высокого разрешения

Одна простая магическая строка IPython может предоставит вам на выводе график с двойным разрешением для экранов Retina. Стоит отметить, что на других экранах график может не отображаться.

%config InlineBackend.figure_format ='retina'

Пропуск ячейки для выполнения

Просто добавьте %%script false в начале ячейки:

%%script false
Можете поместить здесь длинный код,
который вхотите исключить из выполнения
прямо сейчас

Оповещения

Оповещения могут пригодиться, когда вы запускаете код, требующий долгого выполнения. Вы можете настроить уведомление, которое будет отправлено, когда код выполнится.

На Linux и Mac

import os
duration = 1 # секунды
freq = 440 # Гц
os.system('play --no-show-progress --null --channels 1 synth %s sine %f' % (duration, freq))

На Windows

import winsound
duration = 1000 # миллисекунды
freq = 440 # Гц
winsound.Beep(freq, duration)

Чтобы использовать такое оповещение, у вас должен быть установлен sox. Установить его можно с помощью следующей строки:

$ brew install sox

Но это сработает, только если вы пользуетесь Homebrew.

Выводы

Изложенного в этой статье должно быть достаточно для успешного начала работы в Jupyter Notebook. Если вы знаете какие-либо советы и рекомендации, которые могут помочь другим новичкам, напишите об этом в комментариях ниже.

Если вы хотите подняться на уровень повыше, вас может заинтересовать другая статья по оптимизации Jupyter Notebook.