{"blocks":[{"type":"paragraph","data":{"text":"Рассказывает Дебра Мескита"}},{"type":"separator","data":{"text":"***"}},{"type":"paragraph","data":{"text":"Разработчики часто говорят: “Хотите изучать машинное обучение, для начала узнайте, как работают алгоритмы”. Но мой опыт показывает обратное."}},{"type":"paragraph","data":{"text":"Я считаю, сначала важно увидеть общую картину: как работают приложения. Как только вы поймете это, станет гораздо проще изучать функционирование алгоритмов."}},{"type":"paragraph","data":{"text":"Как же развить интуицию и понять все нюансы машинного обучения? Хороший вариант — создать модель такого обучения. Если опыта написания алгоритмов с нуля пока нет, можно использовать библиотеку, в которой они уже реализованы. Например, TensorFlow."}},{"type":"paragraph","data":{"text":"В этой статье мы создадим модель машинного обучения для классификации текста по категориям и обсудим следующие темы:"}},{"type":"list","data":{"items":["Как работает TensorFlow?","Что такое машинно-обучаемые модели?","Что такое нейронная сеть?","Как нейронная сеть обучается?","Как управлять данными и передавать их на ввод нейронной сети?","Как запускать модель и получать результаты прогнозирования?"],"style":"ordered"}},{"type":"paragraph","data":{"text":"Прим. пер. Вы можете найти полезные материалы по теме нейронных сетей в нашей подборке. И взглянуть на шпаргалки по их типам: первую и вторую части."}},{"type":"paragraph","data":{"text":"Во время прочтения может понадобиться руководство по использованию TensorFlow, держите вкладку с ним открытой."}},{"type":"header2","data":{"level":2,"text":"TensorFlow"},"tunes":{"anchorTune":{"anchor":"#1"}}},{"type":"paragraph","data":{"text":"TensorFlow — это библиотека с открытым кодом для машинного обучения, созданная Google. Название помогает понять, как с ней работать: тензоры являются многомерными массивами, которые текут (flow) через узлы графа."}},{"type":"header3","data":{"level":3,"text":"tf.Graph"}},{"type":"paragraph","data":{"text":"Каждое вычисление в TensorFlow представляется как граф потока данных. У него есть два элемента:"}},{"type":"list","data":{"items":["Набор tf.Operation, который представляет единицы вычислений.","Набор tf.Tensor, который представляет единицы данных."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Чтобы увидеть, как это все работает, создадим следующий граф потока данных:"}},{"type":"paragraph","data":{"text":"Определим x = [1, 3, 6] и y = [1, 1, 1]. Так как для представления единиц данных граф работает с tf.Tensor, создадим тензоры-константы:"}},{"type":"code","data":{"code":"import tensorflow as tf\n\nx = tf.constant([1,3,6]) \ny = tf.constant([1,1,1])","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь определим единицу операции:"}},{"type":"code","data":{"code":"import tensorflow as tf\n\nx = tf.constant([1,3,6]) \ny = tf.constant([1,1,1])\n\nop = tf.add(x,y)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"У нас есть все элементы графа. Пора его построить:"}},{"type":"code","data":{"code":"import tensorflow as tf\n\nmy_graph = tf.Graph()\n\nwith my_graph.as_default():\n x = tf.constant([1,3,6]) \n y = tf.constant([1,1,1])\n\n op = tf.add(x,y)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Так рабочий процесс TensorFlow и устроен: сначала вы создаете граф, а потом выполняете вычисления, действительно «запуская» узлы графа с операциями. Для этого необходимо создать tf.Session."}},{"type":"header3","data":{"level":3,"text":"tf.Session"}},{"type":"paragraph","data":{"text":"Объект tf.Session инкапсулирует среду, в которой выполняются объекты Operation и оцениваются объекты Tensor (по крайней мере, так сказано в документации). Чтобы сделать это, необходимо определить, какой граф мы будем использовать в сессии:"}},{"type":"code","data":{"code":"import tensorflow as tf\n\nmy_graph = tf.Graph()\n\nwith tf.Session(graph=my_graph) as sess:\n x = tf.constant([1,3,6]) \n y = tf.constant([1,1,1])\n\n op = tf.add(x,y)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Для выполнения операций используется метод tf.Session.run(). Он совершает один «шаг» вычислений TensorFlow, запуская необходимый фрагмент графа для выполнения каждого объекта Operation и оценки каждого Tensor, переданного в аргументе fetches. В нашем случае запускается шаг операции сложения:"}},{"type":"code","data":{"code":"import tensorflow as tf\n\nmy_graph = tf.Graph()\n\nwith tf.Session(graph=my_graph) as sess:\n x = tf.constant([1,3,6]) \n y = tf.constant([1,1,1])\n\n op = tf.add(x,y)\n result = sess.run(fetches=op)\n print(result)\n\n>>> [2 4 7]","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Прогнозирующая модель"},"tunes":{"anchorTune":{"anchor":"#2"}}},{"type":"paragraph","data":{"text":"Теперь, когда вы знаете, как TensorFlow работает, надо создать прогнозирующую модель. Вкратце:"}},{"type":"paragraph","data":{"text":"Алгоритм машинного обучения + Данные = Прогнозирующая модель"}},{"type":"paragraph","data":{"text":"Процесс построения таков:"}},{"type":"paragraph","data":{"text":"Как можно заметить, она состоит из алгоритма машинного обучения, «натренированного» на данных. Из них формируется модель прогнозирования, далее выдается соответствующий результат:"}},{"type":"paragraph","data":{"text":"Цель модели, которую мы создадим, будет заключаться в классификации текста по категориям, их можно задать:"}},{"type":"list","data":{"items":["ввод: текст;","результат: категория."],"style":"unordered"}},{"type":"paragraph","data":{"text":"У нас есть тренировочный набор данных, в котором все тексты помечены (каждая метка указывает, к какой категории он принадлежит). В машинном обучении такой подход называется обучением с учителем."}},{"type":"paragraph","data":{"text":"Мы классифицируем данные по категориям, следовательно, это задача классификации."}},{"type":"paragraph","data":{"text":"Для создания модели используем нейронные сети."}},{"type":"header2","data":{"level":2,"text":"Нейронные сети"},"tunes":{"anchorTune":{"anchor":"#3"}}},{"type":"paragraph","data":{"text":"Нейронная сеть представляет собой вычислительную модель (способ описания системы с использованием математического языка и его принципов). Эта система скорее самообучающаяся и натренированная, нежели явно запрограммированная."}},{"type":"paragraph","data":{"text":"Нейронные сети имитируют центральную нервную систему человека. У них есть соединенные узлы, которые похожи на наши нейроны:"}},{"type":"paragraph","data":{"text":"Первым нейронным сетевым алгоритмом был перцептрон. Его внутреннюю работу хорошо раскрывает данная статья (обратите внимание на анимации)."}},{"type":"paragraph","data":{"text":"Чтобы понять, как работают нейронные сети, построим архитектуру одной из них с помощью TensorFlow. Можете взглянуть на пример такой реализации."}},{"type":"header3","data":{"level":3,"text":"Архитектура нейронной сети"}},{"type":"paragraph","data":{"text":"У нашей нейронной сети будет 2 скрытых слоя (надо выбрать, сколько их будет в вашей модели — это часть проектирования архитектуры). Задача каждого скрытого уровня заключается в том, чтобы превратить входные данные во что-то, что мог бы использовать слой вывода."}},{"type":"header4","data":{"level":4,"text":"Первый скрытый слой"}},{"type":"paragraph","data":{"text":"Вам также надо определить, сколько узлов будет содержать первый скрытый слой. Они называются признаками или нейронами, на изображении сверху каждый представлен синим кругом."}},{"type":"paragraph","data":{"text":"В слое ввода один узел соответствует слову из набора данных. Рассмотрим это чуть позже."}},{"type":"paragraph","data":{"text":"Как объяснено в этой статье, каждый узел (нейрон) умножается на вес, т.е. имеет значение веса. В ходе обучения нейронная сеть регулирует эти показатели, чтобы произвести правильные выходные данные. Сеть также добавляет смещение."}},{"type":"paragraph","data":{"text":"Далее в нашей архитектуре данные передаются функции активации, которая определяет окончательный вывод каждого узла. Приведем аналогию: представьте, что каждый узел — это лампа, а функция активации указывает, будет лампа гореть или нет."}},{"type":"paragraph","data":{"text":"Существует много видов функции активации. Используем усеченное линейное преобразование (ReLu). Эта функция определяется следующим образом:"}},{"type":"hint","data":{"fullWidth":true,"text":"f(x) = max(0,x) [вывод равен xили0 (ноль), взависимости оттого, что больше]"}},{"type":"paragraph","data":{"text":"Примеры: если x = −1, то f(x) = 0 (ноль); если x = 0,7, то f(x) = 0,7."}},{"type":"header4","data":{"level":4,"text":"Второй скрытый слой"}},{"type":"paragraph","data":{"text":"Второй скрытый слой делает то же самое, что и первый, но теперь входными данными являются выходные данные первого слоя:"}},{"type":"header4","data":{"level":4,"text":"Слой вывода"}},{"type":"paragraph","data":{"text":"И, наконец, мы добираемся до последнего пункта — слоя вывода. Чтобы получить его результаты, будем использовать унитарное кодирование. Здесь только один бит равен единице, а все остальные — нулевые. Например, мы хотим закодировать три категории: «спорт», «космос» и «компьютерная графика»:"}},{"type":"code","data":{"code":"+-------------------+-----------+\n| категория | значение |\n+-------------------|-----------+\n| спорт | 001 |\n| космос | 010 |\n| комп. графика | 100 |\n|-------------------|-----------|","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Получим, что число узлов вывода равно числу классов входного набора данных."}},{"type":"paragraph","data":{"text":"Значения слоя вывода умножаются на веса, к ним добавляется смещение, но функция активации уже другая."}},{"type":"paragraph","data":{"text":"Мы хотим пометить каждый текст категорией, между собой они являются взаимоисключающими, т.к. текст не может принадлежать двум категориям одновременно. Чтобы достичь цели, вместо ReLu возьмем функцию Softmax. Она преобразует вывод для каждой категории в значение между 0 и 1, а также проверяет, что сумма всех значений равна 1. Так вывод покажет нам вероятность принадлежности текста к каждой категории:"}},{"type":"code","data":{"code":"| 1.2 0.46|\n| 0.9 -> [softmax] -> 0.34|\n| 0.4 0.20|","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь у нас есть граф потока данных нейронной сети. Если перевести все в код, то получится примерно следующее:"}},{"type":"code","data":{"code":"# Параметры сети\nn_hidden_1 = 10 # количество признаков первого слоя\nn_hidden_2 = 5 # количество признаков второго слоя\nn_input = total_words # Слова в словаре\nn_classes = 3 # Категории\n\ndef multilayer_perceptron(input_tensor, weights, biases):\n layer_1_multiplication = tf.matmul(input_tensor, weights['h1'])\n layer_1_addition = tf.add(layer_1_multiplication, biases['b1'])\n layer_1_activation = tf.nn.relu(layer_1_addition)\n\n# Скрытый слой с RELU активацией\n layer_2_multiplication = tf.matmul(layer_1_activation, weights['h2'])\n layer_2_addition = tf.add(layer_2_multiplication, biases['b2'])\n layer_2_activation = tf.nn.relu(layer_2_addition)\n\n# Слой вывода с линейной активацией\n out_layer_multiplication = tf.matmul(layer_2_activation, weights['out'])\n out_layer_addition = out_layer_multiplication + biases['out']\n\nreturn out_layer_addition","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Обучение нейронной сети"},"tunes":{"anchorTune":{"anchor":"#4"}}},{"type":"paragraph","data":{"text":"Как показал предыдущий опыт, значения весов обновляются, пока сеть обучается. Теперь разберём процесс в среде TensorFlow."}},{"type":"header3","data":{"level":3,"text":"tf.Variable"}},{"type":"paragraph","data":{"text":"Веса и смещения хранятся в переменных tf.Variable, которые содержат состояние в графе между вызовами run(). В машинном обучении принято работать с весами и смещениями, полученными через нормальное распределение:"}},{"type":"code","data":{"code":"weights = {\n 'h1': tf.Variable(tf.random_normal([n_input, n_hidden_1])),\n 'h2': tf.Variable(tf.random_normal([n_hidden_1, n_hidden_2])),\n 'out': tf.Variable(tf.random_normal([n_hidden_2, n_classes]))\n}\nbiases = {\n 'b1': tf.Variable(tf.random_normal([n_hidden_1])),\n 'b2': tf.Variable(tf.random_normal([n_hidden_2])),\n 'out': tf.Variable(tf.random_normal([n_classes]))\n}","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Запустим сеть в первый раз с весами, полученными по нормальному распределению:"}},{"type":"code","data":{"code":"input values: x\nweights: w\nbias: b\noutput values: z\n\nexpected values: expected","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Чтобы узнать, учится ли сеть, необходимо сравнить выходные значения z с ожидаемыми значениями expected. Существует много методов, как посчитать потерю loss. Так как мы работаем с задачей на классификацию, лучшим способом вычисления ошибки будет перекрестной энтропии."}},{"type":"paragraph","data":{"text":"Сделаем это при помощи TensorFlow, используя метод tf.nn.softmax_cross_entropy_with_logits() (функцию активации softmax), и вычислим среднюю ошибку tf.reduced_mean():"}},{"type":"code","data":{"code":"# Конструирование модели\nprediction = multilayer_perceptron(input_tensor, weights, biases)\n\n# Определение потерь\nentropy_loss = tf.nn.softmax_cross_entropy_with_logits(logits=prediction, labels=output_tensor)\nloss = tf.reduce_mean(entropy_loss)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Мы хотим найти лучшие значения весов и смещений для того, чтобы минимизировать ошибки при выводе — разницу между полученным и правильным значениями. Для этого воспользуемся методом градиентного спуска. А если быть точнее, то стохастическим градиентным спуском:"}},{"type":"image","data":{"file":{"id":38047,"url":"https://media.tproger.ru/uploads/2017/05/7-1.png"},"alt":"","title":"","caption":"","stretched":false,"withBackground":false,"withBorder":false,"width":800,"height":433,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2017/05/7-1.png","alt":"Общий взгляд на машинное обучение: классификация текста с помощью нейронных сетей и TensorFlow 1","dimensions":{"width":800,"height":433},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/BEpnx0kr0O-jCpfYVCnRwp64_gkdO1M1Y29SVw7GNDw/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/GAV2XIF91iRatGaHiAwLtUQjtLZEOry9A4Z2V2KEIvo/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/ogPfTWHS5_wQkxcOF5Zjj9ETK9xcps0c4g6udmg8UJA/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/tKA3YdqJ7-BzHuXIADKBOgXjdHQaQJqzhtIfpU5rkDs/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/L5B9yB829IkbiJSzng7KU5fEkLE32dHOEQqi6epwYPY/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/JRjsv30hhxnvFdro4L1N1S0kLKtyB5oA4wNIkzndH1c/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/KvYSS6DXRl1TxQmYQMdfQVLJOcaCggyR6qf2YPEYG-w/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/Ln0cPhDPZtuCL0rjpeT0Cp1QWwVz-Hk8JVh3ebgX6RI/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxNy8wNS83LTEucG5n","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"type":"paragraph","data":{"text":"Существует множество алгоритмов для вычисления градиентного спуска, мы будем использовать адаптивную оценку моментов. Передадим значение learning_rate, которое определяет шаг значений для нахождения лучшего веса."}},{"type":"paragraph","data":{"text":"Метод tf.train.AdamOptimizer(learning_rate).minimize(loss) — это синтаксический сахар, который делает две вещи:"}},{"type":"list","data":{"items":["compute_gradients(loss, ).","apply_gradients()."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Обновляя значения всех tf.Variables, нам не приходится передавать список переменных. И теперь есть код для тренировки сети:"}},{"type":"code","data":{"code":"learning_rate = 0.001\n\n# Конструирование модели\nprediction = multilayer_perceptron(input_tensor, weights, biases)\n\n# Определение потери\nentropy_loss = tf.nn.softmax_cross_entropy_with_logits(logits=prediction, labels=output_tensor)\nloss = tf.reduce_mean(entropy_loss)\n\noptimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(loss)","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Управление данными"},"tunes":{"anchorTune":{"anchor":"#5"}}},{"type":"paragraph","data":{"text":"Набором данных, который мы будем использовать (кстати, в нем содержится множество текстов на английском) надо управлять, чтобы передать нейронной сети. Для реализации необходимо сделать две вещи:"}},{"type":"list","data":{"items":["Создать индекс для каждого слова.","Создать матрицу для каждого текста, где значение равно единице, если слово есть в тексте, и нулю в противном случае."],"style":"ordered"}},{"type":"paragraph","data":{"text":"Давайте взглянем на код, чтобы понять процесс:"}},{"type":"code","data":{"code":"import numpy as np #numpy — это пакет для научных вычислений\nfrom collections import Counter\n\nvocab = Counter()\n\ntext = \"Hi from Brazil\"\n\n#Получение всех слов\nfor word in text.split(' '):\n vocab[word]+=1\n \n#Конвертация слов в индексы\ndef get_word_2_index(vocab):\n word2index = {}\n for i,word in enumerate(vocab):\n word2index[word] = i\n \n return word2index\n\n#Теперь у нас есть индекс\nword2index = get_word_2_index(vocab)\n\ntotal_words = len(vocab)\n\n#Создание массива NumPy (наша матрица)\nmatrix = np.zeros((total_words),dtype=float)\n\n#Заполнение значений\nfor word in text.split():\n matrix[word2index[word]] += 1\n\nprint(matrix)\n\n>>> [ 1. 1. 1.]","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"В примере выше из текста «Hi from Brazil» получилась матрица [ 1. 1. 1.]. Что, если бы текст был просто «Hi»:"}},{"type":"code","data":{"code":"matrix = np.zeros((total_words),dtype=float)\n\ntext = \"Hi\"\n\nfor word in text.split():\n matrix[word2index[word.lower()]] += 1\n\nprint(matrix)\n\n>>> [ 1. 0. 0.]","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"То же самое сделаем с метками (категориями текстов), но теперь будем использовать унитарное кодирование:"}},{"type":"code","data":{"code":"y = np.zeros((3),dtype=float)\n\nif category == 0:\n y[0] = 1. # [ 1. 0. 0.]\nelif category == 1:\n y[1] = 1. # [ 0. 1. 0.]\nelse:\n y[2] = 1. # [ 0. 0. 1.]","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Запуск графа и получение результата"},"tunes":{"anchorTune":{"anchor":"#6"}}},{"type":"paragraph","data":{"text":"Настало время самой ожидаемой части — получения результатов от модели. Для начала давайте взглянем поближе на входной набор данных."}},{"type":"header3","data":{"level":3,"text":"Набор данных"}},{"type":"paragraph","data":{"text":"Будем использовать 20 Newsgroups — набор данных, содержащий 18 тысяч постов на 20 тем. Чтобы загрузить такой объем информации, воспользуемся библиотекой scikit-learn. Возьмем только 3 категории: comp.graphics, sci.space и rec.sport.baseball. Scikit-learn работает с двумя подмножествами: одним для обучения, вторым для проверки."}},{"type":"hint","data":{"fullWidth":true,"text":"никогда несмотрите натестовые данные, это может повлиять наваши решения при создании модели. Ненужно создавать образец для прогнозирования каких-то конкретных данных, важно сделать модель схорошим обобщением."}},{"type":"paragraph","data":{"text":"Вот так вы загрузите свои наборы данных:"}},{"type":"code","data":{"code":"from sklearn.datasets import fetch_20newsgroups\n\ncategories = [\"comp.graphics\",\"sci.space\",\"rec.sport.baseball\"]\n\nnewsgroups_train = fetch_20newsgroups(subset='train', categories=categories)\nnewsgroups_test = fetch_20newsgroups(subset='test', categories=categories)","language":"python lazy-code"}},{"type":"header3","data":{"level":3,"text":"Тренировка модели"}},{"type":"paragraph","data":{"text":"В терминологии нейронных сетей одна эпоха = один передний проход (получение значений вывода) и один обратный проход (обновление весов) всех тренировочных примеров."}},{"type":"paragraph","data":{"text":"Помните метод tf.Session.run()? Рассмотрим его подробнее:"}},{"type":"code","data":{"code":"tf.Session.run(fetches, feed_dict=None, options=None, run_metadata=None)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"В графе потока данных, упомянутом в начале статьи, мы использовали операцию сложения, также возможно передать список задач для выполнения. Нашей нейронной сети сообщим две вещи: вычисление потери и шаг оптимизации."}},{"type":"paragraph","data":{"text":"Параметр feed_dict указывает, куда мы передаем данные по каждому этапу работы. Также необходимо определить tf.placeholders, чтобы наполнить feed_dict."}},{"type":"paragraph","data":{"text":"Как гласит документация TensorFlow:"}},{"type":"blockquote","data":{"author":"","authorJob":"","fullWidth":false,"quoteMark":false,"withBorder":false,"text":"Плейсхолдер нужен исключительно вкачестве цели наполнения. Оннеинициализирован инесодержит данных."}},{"type":"paragraph","data":{"text":"Поэтому мы определим заполнители так:"}},{"type":"code","data":{"code":"n_input = total_words # Слова в словаре\nn_classes = 3 # Категории\n\ninput_tensor = tf.placeholder(tf.float32,[None, n_input],name=\"input\")\noutput_tensor = tf.placeholder(tf.float32,[None, n_classes],name=\"output\")","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Разобьем тренировочные данные на блоки согласно официальному сайту:"}},{"type":"blockquote","data":{"author":"","authorJob":"","fullWidth":false,"quoteMark":false,"withBorder":false,"text":"Если выиспользуете заполнитель для ввода, можно определять переменное измерение блока спомощью tf.placeholder(…, shape=[None,…]). Элемент None указывает наизмерение спеременным размером."}},{"type":"paragraph","data":{"text":"Для тестирования модели мы наполним словарь большим блоком, поэтому необходимо определить его переменное измерение."}},{"type":"paragraph","data":{"text":"Функция get_batches() показывает количество текстов вместе с размером блока. Теперь можно запустить модель:"}},{"type":"code","data":{"code":"training_epochs = 10\n# Запуск графа\nwith tf.Session() as sess:\n sess.run(init) #инициализация нормальным распределением\n\n # Тренировочный цикл\n for epoch in range(training_epochs):\n avg_cost = 0.\n total_batch = int(len(newsgroups_train.data)/batch_size)\n # Цикл по всем блокам\n for i in range(total_batch):\n batch_x,batch_y = get_batch(newsgroups_train,i,batch_size)\n # Запустим оптимизацию\n c,_ = sess.run([loss,optimizer], feed_dict={input_tensor: batch_x, output_tensor:batch_y})","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"У нас есть натренированная модель. Чтобы протестировать ее, необходимо создать элементы графа. Будем измерять точность, надо получить индексы спрогнозированного значения и индекс правильного значения, потому что мы используем унитарное кодирование. Затем проверить, равны ли они, и вычислить среднее для всего тестового набора данных:"}},{"type":"code","data":{"code":"# Тестирование модели\n index_prediction = tf.argmax(prediction, 1)\n index_correct = tf.argmax(output_tensor, 1)\n correct_prediction = tf.equal(index_prediction, index_correct)\n \n # Вычисление точности\n accuracy = tf.reduce_mean(tf.cast(correct_prediction, \"float\"))\n total_test_data = len(newsgroups_test.target)\n batch_x_test,batch_y_test = get_batch(newsgroups_test,0,total_test_data)\n print(\"Accuracy:\", accuracy.eval({input_tensor: batch_x_test, output_tensor: batch_y_test}))\n\n>>> Epoch: 0001 loss= 1133.908114347\n Epoch: 0002 loss= 329.093700409\n Epoch: 0003 loss= 111.876660109\n Epoch: 0004 loss= 72.552971845\n Epoch: 0005 loss= 16.673050320\n Epoch: 0006 loss= 16.481995190\n Epoch: 0007 loss= 4.848220565\n Epoch: 0008 loss= 0.759822878\n Epoch: 0009 loss= 0.000000000\n Epoch: 0010 loss= 0.079848485\n Optimization Finished!\n Accuracy: 0.75","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Вот и все! Мы создали модель с использованием нейронной сети для классификации текстов по категориям. Поздравляю!"}},{"type":"paragraph","data":{"text":"Конечный код вы можете посмотреть на странице GitHub."}},{"type":"paragraph","data":{"text":"Примечание: Измените значения, которые мы определили, чтобы посмотреть, как они влияют на тренировочное время и точность модели."}}]}

Ошибка в настройках сайта