{"time":1708523950092,"blocks":[{"id":"JBEnRgrfmp","type":"paragraph","data":{"text":"Работа с кодировкой символов на Python, да и на любом другом языке, временами выглядит довольно сложной. На Stack Overflow можно найти тысячи вопросов, посвящённых таким исключениям, как UnicodeDecodeError и UnicodeEncodeError. Данное руководство призвано прояснить сложные аспекты работы с этими исключениями и продемонстрировать, что работа с текстовыми и двоичными данными на Python 3 может быть приятной. В Python хорошо реализована поддержка Юникода, однако для работы с кодировкой всё же потребуется приложить усилия."}},{"id":"zkj2lgdS_r","type":"embed","data":{"link":"https://tproger.ru/translations/unicode-intro"}},{"id":"GQbXyjOoCJ","type":"paragraph","data":{"text":"Вводная часть статьи даст общее понимание работы с Юникодом, не привязанное к какому-то определённому языку, однако практические примеры будут приведены именно на Python, а их описание будет довольно лаконичным."}},{"id":"Kn1CfS65Yy","type":"header4","data":{"text":"Изучив эту статью, вы:","level":4},"tunes":{}},{"id":"ZmCwtxspme","type":"list","data":{"style":"unordered","items":["Освоите концепции кодировки символов и системы нумерации;","Поймёте, как кодировка работает с объектами str и bytes;","Узнаете, как в Python поддерживается система нумерации посредством различных форм литералов int;","Познакомитесь со встроенными функциями языка, относящимися к кодировке и системе нумерации."]}},{"id":"jI8qBzjQ93","type":"paragraph","data":{"text":"Система нумерации и кодировка символов настолько тесно связаны, что их придётся раскрыть в одном руководстве, в противном случае материал будет неполным."}},{"id":"94iNijC53G","type":"paragraph","data":{"text":"Прим. Статья ориентирована на Python 3, а все примеры кода созданы с помощью оболочки CPython 3.7.2. Большая часть более ранних версий Python 3 также будут корректно обрабатывать код. Если вы всё ещё используете Python 2 и различия в обработке текста и бинарных данных между 2 и 3 версиями языка вас отпугивают, это руководство может помочь вам преодолеть барьер."}},{"id":"uu2eIyNNOz","type":"header2","data":{"text":"Что такое кодировка символов?","level":2},"tunes":{}},{"id":"WY19FncU_S","type":"paragraph","data":{"text":"Существуют десятки, если не сотни, кодировок символов. Понять эту концепцию легче всего, разобрав одну из самых простых, ASCII."}},{"id":"09c90b3f-989f-4b15-ac91-66128f1c5ec3","type":"banner-blank","data":{}},{"id":"eFYpWhjdKV","type":"paragraph","data":{"text":"Независимо от того, занимаетесь вы самообразованием или получили более формальное образование в сфере IT , наверняка пару раз вы уже видели таблицу ASCII. Эта таблица — хорошее начало для изучения принципов кодировки, так как она простая и маленькая (как вы увидите дальше, даже слишком маленькая)."}},{"id":"uu611PmR2a","type":"paragraph","data":{"text":"Она охватывает следующее:"}},{"id":"odiVeFgRyL","type":"list","data":{"style":"unordered","items":["Символы английского алфавита в нижнем регистре: от a до z;","Символы английского алфавита в верхнем регистре: от A до Z;","Некоторые знаки препинания и символы: например «$» или «!»;","Символы, отображаемые как пустое место: пробел (« »), символ новой строки, возврата каретки, горизонтальной и вертикальной табуляции и несколько других;","Некоторые непечатаемые символы: такие как бекспейс, «\\b», которые просто невозможно отобразить, так, как к примеру, букву А."]}},{"id":"yACUrMS5U_","type":"paragraph","data":{"text":"Приведём формальное определение кодировки символов."}},{"id":"XhWLqrM8eI","type":"paragraph","data":{"text":"На самом высоком уровне — это способ перевода символов (таких как буквы, знаки пунктуации, служебные знаки, пробелы и контрольные символы) в целые числа и затем непосредственно в биты. Каждый символ может быть закодирован уникальным двоичным кодом. Если вы плохо знакомы с концепцией битов, не волнуйтесь, мы вскоре о ней поговорим."}},{"id":"P3bGNxEsGd","type":"paragraph","data":{"text":"Группы символов выделяют в отдельные категории. Каждому символу соответствует кодовая точка, которую можно рассматривать просто как целое число. В таблице ASCII символы сегментированы следующим образом:"}},{"id":"67DJ0OMNu4","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/b1a78db2-0f7a-45a2-8056-9761281a1b2f.png","id":28038},"stretched":false,"withBackground":false,"withBorder":false,"width":615,"height":261,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/b1a78db2-0f7a-45a2-8056-9761281a1b2f.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 1","dimensions":{"width":615,"height":261},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/dYLXcVwayRcsnmgkojPgIP6rJtn0Ng-935LXdbRrJ58/rs:fill:615:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":615},{"url":"https://tproger.ru/signed_image/TAXQL_Yv3qsh86esmogLgfberIzTiLqZMFTsfWLmsWw/rs:fill:1230:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":1230},{"url":"https://tproger.ru/signed_image/dYLXcVwayRcsnmgkojPgIP6rJtn0Ng-935LXdbRrJ58/rs:fill:615:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":615},{"url":"https://tproger.ru/signed_image/TAXQL_Yv3qsh86esmogLgfberIzTiLqZMFTsfWLmsWw/rs:fill:1230:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":1230},{"url":"https://tproger.ru/signed_image/dYLXcVwayRcsnmgkojPgIP6rJtn0Ng-935LXdbRrJ58/rs:fill:615:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":615},{"url":"https://tproger.ru/signed_image/TAXQL_Yv3qsh86esmogLgfberIzTiLqZMFTsfWLmsWw/rs:fill:1230:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":1230},{"url":"https://tproger.ru/signed_image/WpIUhp6wrAuFzNn8XlE59TlTJP0p994D6UHpNYB5igA/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/isir3Rg6ctJ_DVQ3VY_XOnkOKkoTV04-FC2bojiy_CE/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2IxYTc4ZGIyLTBmN2EtNDVhMi04MDU2LTk3NjEyODFhMWIyZi5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"615px"},{"media":"(min-width: 1281px)","size":"615px"},{"media":"(min-width: 1281px)","size":"615px"},{"media":"(min-width: 961px)","size":"615px"},{"media":"(min-width: 671px)","size":"615px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"hT1uP407Ij","type":"paragraph","data":{"text":"Всего кодировка ASCII содержит 128 символов. В таблице ниже вы видите исчерпывающий набор знаков, которые позволяет отобразить эта кодировка. Если вы не видите какого-то символа, значит вы просто не сможете его вывести с помощью ASCII."}},{"id":"_cGbGoyh7C","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/5f40385c-b617-464a-bc6b-87e8063e95fb.png","id":28046},"stretched":false,"withBackground":false,"withBorder":false,"width":650,"height":674,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/5f40385c-b617-464a-bc6b-87e8063e95fb.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 2","dimensions":{"width":650,"height":674},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/bMvBJ98BMdaxtqn3K2x0XiwngtKGKuTJAMCkf_Lqcgo/rs:fill:650:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":650},{"url":"https://tproger.ru/signed_image/LSbUKMZO5REE6o_yNFgN3RpGuVgOlrcjFKxrbbjrXfU/rs:fill:1300:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":1300},{"url":"https://tproger.ru/signed_image/bMvBJ98BMdaxtqn3K2x0XiwngtKGKuTJAMCkf_Lqcgo/rs:fill:650:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":650},{"url":"https://tproger.ru/signed_image/LSbUKMZO5REE6o_yNFgN3RpGuVgOlrcjFKxrbbjrXfU/rs:fill:1300:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":1300},{"url":"https://tproger.ru/signed_image/y97AzmLsS98Jd4QHXKkU7PFNAdElSCDlVsSIA5OMi54/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/T-JtkN0Qcyae0Kkdfg2_CzyjHwPHf1_Np8UtQDw2yrA/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/hvaRXcg0ApCZLmgkvKjn89xTckWZ-eLcTUYkDCDNgr4/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/ddFLh7pAAxe1ViLI1aQKZCop9sQ8iLbZnvfs1HLD3jU/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzVmNDAzODVjLWI2MTctNDY0YS1iYzZiLTg3ZTgwNjNlOTVmYi5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"650px"},{"media":"(min-width: 1281px)","size":"650px"},{"media":"(min-width: 1281px)","size":"650px"},{"media":"(min-width: 961px)","size":"650px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"9P6eT3tefB","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/c80a6048-42a4-48c8-ae19-1a67a5976427.png","id":28047},"stretched":false,"withBackground":false,"withBorder":false,"width":655,"height":757,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/c80a6048-42a4-48c8-ae19-1a67a5976427.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 3","dimensions":{"width":655,"height":757},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/A2R7KcP-9vE6hznCMjclHwkg_dZ1r6WvncdsxGNpg2s/rs:fill:655:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":655},{"url":"https://tproger.ru/signed_image/83ccEgwKDaUsby1rJhi7OSJRlN5vjGVQ64Qo3XKBpaQ/rs:fill:1310:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":1310},{"url":"https://tproger.ru/signed_image/A2R7KcP-9vE6hznCMjclHwkg_dZ1r6WvncdsxGNpg2s/rs:fill:655:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":655},{"url":"https://tproger.ru/signed_image/83ccEgwKDaUsby1rJhi7OSJRlN5vjGVQ64Qo3XKBpaQ/rs:fill:1310:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":1310},{"url":"https://tproger.ru/signed_image/DYuJDvNHr_aoGh-EBTzVEdSvtCOrP2RpVB4duIPJ1qQ/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/LiCnNCvYGkfcc2RXL1VMlnkVEGGgCREYeDIkfC1zQ40/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/LNtf-hEtkJNwYUOi8Uuw7oYgMhDwpHX--tWbmvRQ2BU/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/3GVzZ0KBz_dNjWFsD31Hl8pCBzsOYGD9TT2-T2RviSo/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2M4MGE2MDQ4LTQyYTQtNDhjOC1hZTE5LTFhNjdhNTk3NjQyNy5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"655px"},{"media":"(min-width: 1281px)","size":"655px"},{"media":"(min-width: 1281px)","size":"655px"},{"media":"(min-width: 961px)","size":"655px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"QfDQ0cXI_8","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/ea078928-55b3-4de1-b0b0-d02e9751faa1.png","id":28048},"stretched":false,"withBackground":false,"withBorder":false,"width":648,"height":554,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/ea078928-55b3-4de1-b0b0-d02e9751faa1.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 4","dimensions":{"width":648,"height":554},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/J-TcgcJut5ekLL7yTl7lDUA9R6e74uiaHBSLcgU-zgY/rs:fill:648:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":648},{"url":"https://tproger.ru/signed_image/05-f8QsNsBbPBQxbr245Dv0aUmvo7FOZpId8vmT8IsE/rs:fill:1296:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":1296},{"url":"https://tproger.ru/signed_image/J-TcgcJut5ekLL7yTl7lDUA9R6e74uiaHBSLcgU-zgY/rs:fill:648:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":648},{"url":"https://tproger.ru/signed_image/05-f8QsNsBbPBQxbr245Dv0aUmvo7FOZpId8vmT8IsE/rs:fill:1296:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":1296},{"url":"https://tproger.ru/signed_image/q85lixcUlJHN1sqyOYWay6XJv8BXUiPANPg8UZUTKsI/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/gmV4g3VKoxThijoYK2M29910_SuWG0Xww_A0B7FM7C4/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/GfPIah3h6DDtaOsgPxTXMju8I4IUqxih7O1yFW5sCeQ/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/cZAVVrEWygCn77XucZF1Me4jMaVcStfHptyoi-QIRec/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2VhMDc4OTI4LTU1YjMtNGRlMS1iMGIwLWQwMmU5NzUxZmFhMS5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"648px"},{"media":"(min-width: 1281px)","size":"648px"},{"media":"(min-width: 1281px)","size":"648px"},{"media":"(min-width: 961px)","size":"648px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"BO84G2YDKL","type":"header3","data":{"text":"Модуль string","level":3},"tunes":{}},{"id":"5I7H3gCfEu","type":"paragraph","data":{"text":"Модуль string — простой и удобный инструмент, разграничивающий содержащиеся в ASCII символы по группам, разделяя их в строки-константы. Вот как выглядит основная часть модуля:"}},{"id":"ImwCF6VwCf","type":"code","data":{"code":"# From lib/python3.7/string.py\n\nwhitespace = ' \\t\\n\\r\\v\\f'\nascii_lowercase = 'abcdefghijklmnopqrstuvwxyz'\nascii_uppercase = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'\nascii_letters = ascii_lowercase + ascii_uppercase\ndigits = '0123456789'\nhexdigits = digits + 'abcdef' + 'ABCDEF'\noctdigits = '01234567'\npunctuation = r\"\"\"!\"#$%&'()*+,-./:;<=>?@[\\]^_`{|}~\"\"\"\nprintable = digits + ascii_letters + punctuation + whitespace","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"LNtvjtgcKk","type":"paragraph","data":{"text":"Большинство этих констант исчерпывающе описаны их идентификаторами. Мы вкратце коснёмся констант hexdigits и octdigits."}},{"id":"HyomfjjpCj","type":"paragraph","data":{"text":"Мы можем использовать определённые в модуле константы для рутинных операций:"}},{"id":"HM2LeWEZeJ","type":"code","data":{"code":">>> import string\n\n>>> s = \"What's wrong with ASCII?!?!?\"\n>>> s.rstrip(string.punctuation)\n'What's wrong with ASCII'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"koEwQhXKxM","type":"paragraph","data":{"text":"Прим. Обратите внимание, string.printable включает string.whitespace. Это несколько не соответствует тому, как печатаемые символы определяет метод str.isprintable(), который не рассматривает ни один из символов {'\\v', '\\n', '\\r', '\\f', '\\t'} как печатаемый."}},{"id":"y4JUZF3tWc","type":"paragraph","data":{"text":"Это различие происходит из определения метода: str.isprintable() рассматривает что-либо печатаемым, если «все символы рассматриваются как печатаемые методом repr()."}},{"id":"x9s0Uk6btq","type":"header3","data":{"text":"Что такое биты","level":3},"tunes":{}},{"id":"OxNj7H0gFu","type":"paragraph","data":{"text":"Настало время вспомнить, что такое бит, базовая единица информации, которой оперируют вычислительные устройства."}},{"id":"vVU7hyc57h","type":"paragraph","data":{"text":"Бит — это сигнал, который имеет два возможных состояния. Есть различные способы символического отображения этих состояний:"}},{"id":"MltqyEt6qz","type":"list","data":{"style":"unordered","items":["0 или 1;","«да» или «нет»;","True или False;","«включено» или «выключено»."]}},{"id":"47QNHBcLeq","type":"paragraph","data":{"text":"Таблица ASCII из предыдущего раздела использует то, что обычно назвали бы числами (от 0 до 127), однако для наших целей важно понимать, что это десятичные числа (с основанием 10)."}},{"id":"680755f1-72b5-4200-8950-0343cc29f998","type":"banner-blank","data":{}},{"id":"vjJPjTXj9k","type":"paragraph","data":{"text":"Каждое из этих десятичных чисел можно выразить последовательностью бит (числом с основанием 2). Вот таблица соотношения двоичных и десятичных чисел:"}},{"id":"aOh0v0Gpmv","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/29efc38f-afba-4116-81c2-c30683cad6b9.png","id":28039},"stretched":false,"withBackground":false,"withBorder":false,"width":471,"height":384,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/29efc38f-afba-4116-81c2-c30683cad6b9.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 5","dimensions":{"width":471,"height":384},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/J0CU6RRV5qmcDsAbaJjcXJVXUovHPRofjMVX7neFlQQ/rs:fill:471:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":471},{"url":"https://tproger.ru/signed_image/zEIzK0ZsvsExeJRLo9FPWESAzeHzZ4zvXZ92te4_vtM/rs:fill:942:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":942},{"url":"https://tproger.ru/signed_image/J0CU6RRV5qmcDsAbaJjcXJVXUovHPRofjMVX7neFlQQ/rs:fill:471:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":471},{"url":"https://tproger.ru/signed_image/zEIzK0ZsvsExeJRLo9FPWESAzeHzZ4zvXZ92te4_vtM/rs:fill:942:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":942},{"url":"https://tproger.ru/signed_image/J0CU6RRV5qmcDsAbaJjcXJVXUovHPRofjMVX7neFlQQ/rs:fill:471:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":471},{"url":"https://tproger.ru/signed_image/zEIzK0ZsvsExeJRLo9FPWESAzeHzZ4zvXZ92te4_vtM/rs:fill:942:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":942},{"url":"https://tproger.ru/signed_image/qQ8n0O0q0pZn19dKpto-a8yNOP1n6Q8OYAF6c1vp9u8/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/CaMnfImv3YRuhsSC-cldzYlE22IeS6qdA_BrLxuJgks/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5ZWZjMzhmLWFmYmEtNDExNi04MWMyLWMzMDY4M2NhZDZiOS5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"471px"},{"media":"(min-width: 1281px)","size":"471px"},{"media":"(min-width: 1281px)","size":"471px"},{"media":"(min-width: 961px)","size":"471px"},{"media":"(min-width: 671px)","size":"471px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"1DaU67AOBl","type":"paragraph","data":{"text":"Обратите внимание, что при увеличении десятичного числа n для его отображения (а следовательно и для отображения символа, относящегося к этому числу) требуется всё больше значимых бит."}},{"id":"Z54ssXSPeB","type":"paragraph","data":{"text":"Вот удобный метод представить строки ASCII как последовательность бит. Каждый символ из строки ASCII переводится в последовательность из 8 нолей и единиц с пробелами между этими последовательностями:"}},{"id":"qc9RqvHzVV","type":"code","data":{"code":">>> def make_bitseq(s: str) -> str:\n... if not s.isascii():\n... raise ValueError(\"ASCII only allowed\")\n... return \" \".join(f\"{ord(i):08b}\" for i in s)\n\n>>> make_bitseq(\"bits\")\n'01100010 01101001 01110100 01110011'\n\n>>> make_bitseq(\"CAPS\")\n'01000011 01000001 01010000 01010011'\n\n>>> make_bitseq(\"$25.43\")\n'00100100 00110010 00110101 00101110 00110100 00110011'\n\n>>> make_bitseq(\"~5\")\n'01111110 00110101'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"I4Y7u8Ojok","type":"paragraph","data":{"text":"Прим. Обратите внимание, что метод .isascii() появился в Python 3.7."}},{"id":"YNH1BjRBow","type":"paragraph","data":{"text":"Строковой литерал f-string f\"{ord(i):08b}\" использует мини-язык форматирования Format Specification Mini-Language, а именно его возможность замещения полей при форматировании строк."}},{"id":"u0tIAvsWOb","type":"list","data":{"style":"unordered","items":["левая часть выражения, ord(i), представляет объект, значение которого будет отформатировано и отображено при выводе. ord() возвращает кодовую точку одиночного символа str в десятичном выражении;","Правая сторона выражения определяет форматирование объекта. 08 означает ширина 8, заполнение нулями, а b работает как команда вывести число в двоичном (binary) эквиваленте."]}},{"id":"4-lfdWzNsf","type":"paragraph","data":{"text":"На самом деле этот метод можно использовать разве что для развлечения. Он выдаст ошибку для любого символа, не представленного в ASCII-таблице. Позже мы рассмотрим, как эта проблема решается в других кодировках."}},{"id":"DQGKCMT8cp","type":"header3","data":{"text":"Нам нужно больше бит","level":3},"tunes":{}},{"id":"2hORNPyi1I","type":"paragraph","data":{"text":"Исходя из определения бита, можно вывести следующую закономерность: при определённом количестве бит n с их помощью можно выразить 2n разных значений."}},{"id":"vDYRfPpyo3","type":"code","data":{"code":"def n_possible_values(nbits: int) -> int:\n return 2 ** nbits","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"CEd9YJPjhS","type":"paragraph","data":{"text":"Вот что это означает:"}},{"id":"xBrwlDUTdY","type":"list","data":{"style":"unordered","items":["1 бит позволяет выразить 21 == 2 возможных значения;","8 бит позволяют выразить 28 == 256 возможных значений;","64 бита позволяют выразить 264 == 18 446 744 073 709 551 616 возможных значений."]}},{"id":"91ygpIYML_","type":"paragraph","data":{"text":"В качестве естественного вывода из приведённой выше формулы мы можем установить следующее: для того, чтобы вычислить количество бит, необходимых для выражения определённого числа разных значений, нам нужно найти n в уравнении 2n=x, где переменная x известна."}},{"id":"227906b7-66cd-4efe-b642-806d74d07330","type":"banner-blank","data":{}},{"id":"hbxKPoUUbt","type":"paragraph","data":{"text":"Вот как можно это рассчитать:"}},{"id":"NA3Vbe9EhI","type":"code","data":{"code":">>> from math import ceil, log\n\n>>> def n_bits_required(nvalues: int) -> int:\n... return ceil(log(nvalues) / log(2))\n\n>>> n_bits_required(256)\n8","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"ivIB17O8le","type":"paragraph","data":{"text":"Округление вверх в методе n_bits_required() требуется для расчёта значений, которые не являются чистой степенью двойки. К примеру, вам нужно сохранить набор из 110 различных символов. Для этого потребуется log(110) / log(2) == 6.781 бит, но поскольку бит для вычислительной техники является мельчайшей неделимой величиной, для отображения 110 различных значений нам понадобится 7 бит, при этом несколько значений останутся невостребованными."}},{"id":"EuAA4q6sIu","type":"code","data":{"code":">>> n_bits_required(110)\n7","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"tsrb7v3o3c","type":"paragraph","data":{"text":"Всё сказанное служит для обоснования одной идеи: ASCII, строго говоря, семибитная кодировка. Эта таблица содержит 128 кодовых точек, и, соответственно, символов, от 0 до 127 включительно. Это требует 7 бит:"}},{"id":"Dcx95sufi0","type":"code","data":{"code":">>> n_bits_required(128) # от 0 до 127\n7\n>>> n_possible_values(7)\n128","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"FbXBK26tYO","type":"paragraph","data":{"text":"Проблема заключается в том, что современные компьютеры не используют для хранения чего-либо семибитные последовательности. Основной единицей хранения информации современных вычислительных устройств являются восьмибитные последовательности, байты."}},{"id":"ma67uxfKZY","type":"paragraph","data":{"text":"Прим. В этой статье под байтом подразумевается группа из 8 бит, как повелось с 60-х годов прошлого века. Если вам не по душе это новомодное название, можете называть их октетами."}},{"id":"mBRwWj5e5l","type":"paragraph","data":{"text":"То, что ASCII-таблица использует 7 бит из доступных 8, означает, что память вычислительного устройства, занятого строками символов ASCII, наполовину пуста. Для того, чтобы лучше понять, почему это происходит, вернитесь к приведённой выше таблице соответствия двоичных и десятичных чисел. Вы можете выразить числа 0 и 1 с помощью 1 бита, или вы можете использовать 8 бит, чтобы выразить их как 00000000 и 00000001 соответственно."}},{"id":"cf6c1054-a413-4c30-b2cd-78dae1cfce01","type":"banner-blank","data":{}},{"id":"WZTIjPjd5C","type":"paragraph","data":{"text":"Прим. перев. Если быть точным, то пустой остаётся только одна восьмая часть памяти. Однако с помощью именно этого незадействованного бита можно было бы создать вдвое больше кодовых точек."}},{"id":"Dd49vBcEfW","type":"paragraph","data":{"text":"Вы можете выразить числа от 0 до 3 всего двумя битами, от 00 до 11, или использовать 8 бит, чтобы выразить их как 00000000, 00000001, 00000010 и 00000011. Самая большая кодовая точка ASCII, 127, требует только 7 значимых бит."}},{"id":"Pc_4WXk57F","type":"paragraph","data":{"text":"С учётом этого взгляните, как метод make_bitseq() преобразует строки ASCII в строки, состоящие из байт, где каждый символ требует один байт:"}},{"id":"Xa-UZXGzSI","type":"code","data":{"code":">>> make_bitseq(\"bits\")\n'01100010 01101001 01110100 01110011'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"0IJWIIh40S","type":"paragraph","data":{"text":"Неэффективное использование восьмибитной структуры памяти современных вычислительных устройств привело к появлению неструктурированного семейства конфликтующих кодировок, задействующих оставшуюся незанятой половину кодовых точек, доступных в одном байте."}},{"id":"sYSOidWVrA","type":"paragraph","data":{"text":"Несмотря на попытку задействовать дополнительный бит, эти конфликтующие кодировки не могли отобразить все возможные символы, используемые человечеством в письменности."}},{"id":"6Ybf-Rgg9N","type":"paragraph","data":{"text":"Со временем появилась одна большая схема кодировки, которая объединила их. Однако, прежде чем мы до этого доберёмся, поговорим немного о краеугольных камнях схем кодировки символов — системах счисления."}},{"id":"GMLgtN1oYy","type":"header2","data":{"text":"Изучаем основы: другие системы счисления","level":2},"tunes":{}},{"id":"bAQZ7JuBLf","type":"paragraph","data":{"text":"В ASCII-таблице, как мы увидели, каждый символ соответствует числу от 0 до 127."}},{"id":"fea8739d-b5f6-4751-845c-cd1997ed5e83","type":"banner-blank","data":{}},{"id":"qll_fwy1dh","type":"paragraph","data":{"text":"Этот диапазон чисел выражен в десятичной системе счисления. Именно эту систему используют для счёта люди, просто потому что на руках у нас по 10 пальцев."}},{"id":"DikCBVTiSy","type":"paragraph","data":{"text":"Однако существуют и другие системы счисления, которые, в частности, широко используются в исходном коде CPython. Следует понимать, что действительное число не изменяется, а системы счисления просто по-разному его выражают."}},{"id":"Ra1S_o5N5_","type":"paragraph","data":{"text":"Вопрос, какое число записано в строке \"11\" покажется странным, ведь для большинства очевидно, что это одиннадцать."}},{"id":"2_c0aU45Hl","type":"paragraph","data":{"text":"Однако в строке может быть представлено и другое число, в зависимости от системы счисления. Помимо десятичной, используются такие общепринятые альтернативы:"}},{"id":"BvPOnFycRw","type":"list","data":{"style":"unordered","items":["Двоичная: с основой 2;","Восьмеричная: с основой 8;","Шестнадцатеричная (hex): с основой 16."]}},{"id":"CrFyj8yzeX","type":"paragraph","data":{"text":"Что же мы подразумеваем, говоря что определённая система счисления имеет основу N?"}},{"id":"sJSNPfJn0G","type":"paragraph","data":{"text":"Один из способов объяснения разных систем счисления заключается в том, чтобы представить, что у вас N пальцев."}},{"id":"BFLm21Qfyr","type":"paragraph","data":{"text":"Если же вам требуется более подробное объяснение систем счисления, обратитесь к книге Чарльза Петцольда «Код». В этой книге детально объясняются основы работы вычислительной техники."}},{"id":"D-c-0Jrl0J","type":"paragraph","data":{"text":"Конструктор int() — один из способов показать, как разные системы счисления преобразуют одну и ту же строку с помощью Python. Если вы передадите str в int(), Python по умолчанию будет считать, что строка содержит число в десятичной системе. Однако вы можете дать другие указания:"}},{"id":"GBfq_HBGK-","type":"code","data":{"code":">>> int('11')\n11\n>>> int('11', base=10) # 10 установлено по умолчанию\n11\n>>> int('11', base=2) # Двоичная\n3\n>>> int('11', base=8) # Восьмеричная\n9\n>>> int('11', base=16) # Шестнадцатеричная\n17","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"7i5krc57By","type":"paragraph","data":{"text":"Чаще в Python для обозначения того, что целое число представлено в системе счисления, отличной от десятичной, используют префиксы-литералы. Для каждой из трёх альтернативных систем существует свой литерал."}},{"id":"gSdvsWBF62","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/47e8aa23-b556-4e70-ba20-6da8dfb90b0b.png","id":28040},"stretched":false,"withBackground":false,"withBorder":false,"width":307,"height":175,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/47e8aa23-b556-4e70-ba20-6da8dfb90b0b.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 6","dimensions":{"width":307,"height":175},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/8QUN-kvJ07pPhlGAr2UyB7QFLyoKTmLE4FV_GPfYWPU/rs:fill:307:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":307},{"url":"https://tproger.ru/signed_image/WgNWYlNiLYSAloifhX7Ooel3xAUO88JLzWP3jypl19I/rs:fill:614:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":614},{"url":"https://tproger.ru/signed_image/8QUN-kvJ07pPhlGAr2UyB7QFLyoKTmLE4FV_GPfYWPU/rs:fill:307:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":307},{"url":"https://tproger.ru/signed_image/WgNWYlNiLYSAloifhX7Ooel3xAUO88JLzWP3jypl19I/rs:fill:614:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":614},{"url":"https://tproger.ru/signed_image/8QUN-kvJ07pPhlGAr2UyB7QFLyoKTmLE4FV_GPfYWPU/rs:fill:307:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":307},{"url":"https://tproger.ru/signed_image/WgNWYlNiLYSAloifhX7Ooel3xAUO88JLzWP3jypl19I/rs:fill:614:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":614},{"url":"https://tproger.ru/signed_image/8QUN-kvJ07pPhlGAr2UyB7QFLyoKTmLE4FV_GPfYWPU/rs:fill:307:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":307},{"url":"https://tproger.ru/signed_image/WgNWYlNiLYSAloifhX7Ooel3xAUO88JLzWP3jypl19I/rs:fill:614:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzQ3ZThhYTIzLWI1NTYtNGU3MC1iYTIwLTZkYThkZmI5MGIwYi5wbmc","dpr":1,"width":614}],"sizes":[{"media":"(min-width: 1441px)","size":"307px"},{"media":"(min-width: 1281px)","size":"307px"},{"media":"(min-width: 1281px)","size":"307px"},{"media":"(min-width: 961px)","size":"307px"},{"media":"(min-width: 671px)","size":"307px"},{"media":"(min-width: 500px)","size":"307px"}]}}}},{"id":"PkmIS0OFzs","type":"paragraph","data":{"text":"Всё это — разновидности целочисленных литералов. Результаты применения префиксов будут такими же, как и в случае использования int() с определением параметра base. Для Python всё это просто целые числа:"}},{"id":"W5udxXtkUj","type":"code","data":{"code":">>> 11\n11\n>>> 0b11 # Двоичный литерал\n3\n>>> 0o11 # Восьмеричный литерал\n9\n>>> 0x11 # Шестнадцатеричный литерал\n17","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"sKz4oCDMel","type":"paragraph","data":{"text":"В таблице ниже отражено, как можно ввести десятичные числа от 0 до 20 в двоичном, восьмеричном и шестнадцатеричном эквиваленте. Любой из этих способов можно использовать как в оболочке интерпретатора Python, так и в исходном коде, и все эти числа будут рассматриваться как относящиеся к типу int."}},{"id":"sHl13deioE","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/d21947f5-677c-4f3d-8e39-4045175960d8.png","id":28041},"stretched":false,"withBackground":false,"withBorder":false,"width":547,"height":694,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/d21947f5-677c-4f3d-8e39-4045175960d8.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 7","dimensions":{"width":547,"height":694},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/mQFK73JvSwvF3RAW8yohoqVpqCtRCpJ1SVYRwdSf5c4/rs:fill:547:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":547},{"url":"https://tproger.ru/signed_image/ATkiUc4moIeqUhzOMMLThxJ0HLk9FYXV8VK2p9wTG6g/rs:fill:1094:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":1094},{"url":"https://tproger.ru/signed_image/mQFK73JvSwvF3RAW8yohoqVpqCtRCpJ1SVYRwdSf5c4/rs:fill:547:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":547},{"url":"https://tproger.ru/signed_image/ATkiUc4moIeqUhzOMMLThxJ0HLk9FYXV8VK2p9wTG6g/rs:fill:1094:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":1094},{"url":"https://tproger.ru/signed_image/mQFK73JvSwvF3RAW8yohoqVpqCtRCpJ1SVYRwdSf5c4/rs:fill:547:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":547},{"url":"https://tproger.ru/signed_image/ATkiUc4moIeqUhzOMMLThxJ0HLk9FYXV8VK2p9wTG6g/rs:fill:1094:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":1094},{"url":"https://tproger.ru/signed_image/3GUDaxJU0xjaCC4C3ex5aYQInt-nlfLTfWasNxjKwks/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/S9kkcownEki6IAClrabSPXTBQg8RQadbd9TtBI1ssuQ/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2QyMTk0N2Y1LTY3N2MtNGYzZC04ZTM5LTQwNDUxNzU5NjBkOC5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"547px"},{"media":"(min-width: 1281px)","size":"547px"},{"media":"(min-width: 1281px)","size":"547px"},{"media":"(min-width: 961px)","size":"547px"},{"media":"(min-width: 671px)","size":"547px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"OYC7cWgyrZ","type":"paragraph","data":{"text":"Кстати, вы можете сами убедиться, что подобные способы записи чисел очень часто используется в Стандартной Библиотеке Python. Найдите папку lib/python3.7/ в своей системе, перейдите в неё и введите команду:"}},{"id":"t2zlCWlFOv","type":"code","data":{"code":"$ grep -nri --include \"*\\.py\" -e \"\\b0x\" lib/python3.7","language":"clike","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"ulInWvtRFb","type":"paragraph","data":{"text":"Команда сработает в любой Unix-системе с утилитой grep. С её помощью вы найдёте все шестнадцатеричные литералы. Для поиска двоичных используйте \\b0b, а для восьмеричных — \\b0o."}},{"id":"54ce0b75-d3c1-4bea-a7be-2dc81d4a8c65","type":"banner-blank","data":{}},{"id":"jgOh5eUtTt","type":"paragraph","data":{"text":"Для чего же нужны альтернативные литералы целых чисел? Если коротко, числа 2, 8 и 16, в отличие от 10, являются степенями двойки. Основанные на них системы счисления выражают численные значения способами, более удобными для обработки бинарными вычислительными устройствами. К примеру, 65536, или 216, в шестнадцатеричной системе просто 10000 или, используя литерал, 0x10000."}},{"id":"F0iTAKnxgY","type":"header2","data":{"text":"Введение в Юникод","level":2},"tunes":{}},{"id":"vFMgLEPKU7","type":"paragraph","data":{"text":"Как видите, проблема ASCII в том, что этой таблицы недостаточно для отображения знаков, символов и глифов, использующихся во всех языках и диалектах мира. Её недостаточно даже для английского языка."}},{"id":"B71zDVkU4i","type":"paragraph","data":{"text":"Юникод служит тем же целям, что и ASCII, но содержит намного больший набор кодовых точек. В период времени между появлением ASCII и принятием Юникода использовалось ещё несколько различных кодировок, но рассматривать их подробно нет смысла, так как Юникод и одна из его схем, UTF-8, в настоящее время стали использоваться практически повсеместно."}},{"id":"8rAY10zEd0","type":"paragraph","data":{"text":"Вы можете представить Юникод как расширенную версию ASCII-таблицы — с 1 114 112 возможными кодовыми точками, от 0 до 1 114 111. Это 17*(216) или 0x10ffff в шестнадцатеричном представлении. Фактически, ASCII является частью Юникода, так как первые 128 символов этих кодировок полностью совпадают."}},{"id":"fba92869-8a13-4d87-aa79-2f77be45cc70","type":"banner-blank","data":{}},{"id":"RZ_w5UO3j9","type":"paragraph","data":{"text":"Чтобы соблюсти технические детали, сам по себе Юникод не является кодировкой. Он скорее реализуется в различных кодировках символов, как вы вскоре увидите. По структуре Юникод скорее ассоциативный массив (что-то вроде dict) или база данных, состоящая из таблицы с двумя колонками. В этой таблице разные символы (такие как \"a\", \"¢\", или даже \"ቈ\") соотносятся с различными целыми положительными числами. Кодировка же должна предоставлять несколько больше возможностей."}},{"id":"Dv3ua6Tw42","type":"paragraph","data":{"text":"Юникод содержит практически любой символ, который только можно представить, включая дополнительные непечатаемые. Например, кодовая точка 8207 соответствует отметке RTL, которая используется для смены направления письма. Она полезна в текстах, где абзацы на одном из европейских языков соседствуют с абзацами на арабских языках."}},{"id":"MIWPW3AnA0","type":"paragraph","data":{"text":"Прим. Кстати, если уж мы хотим быть совсем точны в деталях, то надо отметить ещё один факт. Исторически сложилось, что в Юникоде доступны только 1 111 998 кодовых точек."}},{"id":"WtWQhQe65Q","type":"header3","data":{"text":"Юникод и UTF-8","level":3},"tunes":{}},{"id":"bMwmQpRvmZ","type":"paragraph","data":{"text":"Довольно скоро стало понятно, что все необходимые символы невозможно вместить в таблицу, используя только один байт. Современные, более ёмкие кодировки требовали использования больших объёмов."}},{"id":"Nt1zZxNPyv","type":"paragraph","data":{"text":"Ранее мы упоминали, что Юникод сам по себе не является кодировкой. И вот почему."}},{"id":"0905c784-5e4b-4b63-8bfe-f374388c6ff3","type":"banner-blank","data":{}},{"id":"NquzMRiS5W","type":"paragraph","data":{"text":"Юникод не содержит указаний по извлечению из текста бит, он работает только с кодовыми точками. В нём нет стандарта конверсии текста в двоичные данные и обратно."}},{"id":"0JUNZMwbUd","type":"paragraph","data":{"text":"Юникод является абстрактным стандартом кодировки. Для практического его применения чаще всего используют схему UTF-8. Стандарт Юникод (таблица соответствий символов кодовыми точкам) определяет несколько различных кодировок на основе единого набора символов."}},{"id":"y6bYGki9cO","type":"paragraph","data":{"text":"Как и менее распространённые UTF-16 и UTF-32, UTF-8 — формат кодировки для отображения символов Юникода в двоичном виде, используя один или несколько байт на один символ. UTF-16 и UTF-32 мы обсудим чуть позже, но пока нам интересен UTF-8 как самый популярный формат."}},{"id":"wbaD1MfFXI","type":"paragraph","data":{"text":"Сначала требуется разобрать термины «‎‎кодирование»‎ и «‎декодирование»‎."}},{"id":"9bvjjXqDH0","type":"header3","data":{"text":"Кодирование и декодирование в Python 3","level":3},"tunes":{}},{"id":"rh4QKzxf9L","type":"paragraph","data":{"text":"Тип данных str в Python 3 рассчитан на представление текста в удобном для чтения формате и может содержать любые символы Юникода."}},{"id":"X-dYm21Yxq","type":"paragraph","data":{"text":"Тип bytes, напротив, представляет двоичные данные, последовательность байт, без указания на кодировку."}},{"id":"0uGNMlL8Iw","type":"paragraph","data":{"text":"Кодирование и декодирование — это процесс перехода данных из одной формы в другую."}},{"id":"GUVYTDTTQ4","type":"image","data":{"alt":"","title":"","caption":"","file":{"id":113585,"url":"https://media.tproger.ru/uploads/2019/06/encode-decode.png"},"stretched":false,"withBackground":false,"withBorder":false,"width":903,"height":483,"optimizedFile":{"original":"https://media.tproger.ru/uploads/2019/06/encode-decode.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 8","dimensions":{"width":903,"height":483},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/MrbXFLuJVWQe7YwJBRhUXWVmjlcQrHpY6mhUN9R2vX8/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/4V74Ec5USJvso4Nm2JatuPceaKCRNbyg8w3koq6yhkw/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/DXokQjGxSNLxvhe9H47AC8ixF_Ylw2njmGADo6Tl7lI/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/HJSCbwGML4zh29kr3p2WKmLmQTYTDFZ7pSyrRbMVCoQ/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/ovoUlxN0Ds7bJ943nPlT_Mto-GYcmfzteiOxyrPAAok/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/0xEhYp5Paq35VQk5jl1IHuOiOUDLrpFl0pTpg9BRCnw/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/Uwh66GiuO0A07mbOlhRuZgVu8F3J1C4Z5dtycXMnYPk/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/jSY2ZSVptGSPjGncCdVaUJPo5nG3XXNebWzZ-H81Ins/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VwbG9hZHMvMjAxOS8wNi9lbmNvZGUtZGVjb2RlLnBuZw=","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"hpgSAeBbFq","type":"paragraph","data":{"text":"В методах .encode() и .decode() по умолчанию используется параметр \"utf-8\", однако для большей уверенности этот параметр можно определить самостоятельно:"}},{"id":"hRpe2xe6k9","type":"code","data":{"code":">>> \"résumé\".encode(\"utf-8\")\nb'r\\xc3\\xa9sum\\xc3\\xa9'\n>>> \"El Niño\".encode(\"utf-8\")\nb'El Ni\\xc3\\xb1o'\n\n>>> b\"r\\xc3\\xa9sum\\xc3\\xa9\".decode(\"utf-8\")\n'résumé'\n>>> b\"El Ni\\xc3\\xb1o\".decode(\"utf-8\")\n'El Niño'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"9lxtK09S2l","type":"paragraph","data":{"text":"str.encode() возвращает объект типа bytes. И литералы этого типа объектов (такие как b\"r\\xc3\\xa9sum\\xc3\\xa9\"), и его отображение допускают только символы ASCII."}},{"id":"53bd32e4-ea7d-4875-98ae-cfc5699d028b","type":"banner-blank","data":{}},{"id":"1214BjlURL","type":"paragraph","data":{"text":"Вот почему при вызове \"El Niño\".encode(\"utf-8\"), ASCII-совместимое \"El\" отображается как есть, а n с тильдой экранируется в \"\\xc3\\xb1\". Этой с виду неудобочитаемой последовательностью представлены два байта, 0xc3 и 0xb1 в шестнадцатеричной системе:"}},{"id":"GgfDX9rvGN","type":"code","data":{"code":">>> \" \".join(f\"{i:08b}\" for i in (0xc3, 0xb1))\n'11000011 10110001'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"WU6ZKQWgv3","type":"paragraph","data":{"text":"Таким образом символ ñ требует два байта для бинарного представления с помощью UTF-8."}},{"id":"Y9c9B47S7q","type":"paragraph","data":{"text":"Прим. Если вы введёте help(str.encode), скорее всего, увидите параметр по умолчанию encoding='utf-8'. Однако имейте в виду, что настройки Windows для Python 3.6 могут отличаться, поэтому использовать методы кодирования и декодирования без указания необходимой кодировки (например \"résumé\".encode()) следует с осторожностью."}},{"id":"TwXE-CxFGb","type":"header3","data":{"text":"Python 3: всё на Юникоде","level":3},"tunes":{}},{"id":"x5OB7ShB4R","type":"paragraph","data":{"text":"Python 3 полностью реализован на Юникоде, а точнее на UTF-8. Вот что это означает:"}},{"id":"LV1twG4Z6k","type":"list","data":{"style":"unordered","items":["По умолчанию предполагается, что исходный код Python 3 написан с помощью UTF-8. Это значит, что вам не нужно использовать определение # -*- coding: UTF-8 -*- в начале файлов .py в этой версии языка.","Все тексты (объекты формата str) реализованы на Юникоде. Кодированный текст представлен двоичными данными (bytes). Тип strможет содержать любой символ-литерал из Юникода (например \"Δv / Δt\"), и все они хранятся в Юникоде.","Любой из символов Юникода приемлем в качестве идентификатора. Например, вы можете использовать выражение résumé = \"~/Documents/resume.pdf\".","В модуле re по умолчанию установлен флаг re.UNICODE, а не re.ASCII. Это означает, что r\"\\w\" соответствует буквам из Юникода, а не просто символам ASCII.","По умолчаниюencoding в str.encode() в bytes.decode() установлен в UTF-8."]}},{"id":"MfUqDMno1h","type":"paragraph","data":{"text":"Нужно отметить также нюанс, касающийся встроенного метода open(). Его параметр encoding зависит от платформы и определяется значением locale.getpreferredencoding():"}},{"id":"7hTbXvd9iC","type":"code","data":{"code":">>> # Mac OS X High Sierra\n>>> import locale\n>>> locale.getpreferredencoding()\n'UTF-8'\n\n>>> # Windows Server 2012; другие сборки Windows могут использовать UTF-16\n>>> import locale\n>>> locale.getpreferredencoding()\n'cp1252'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"9TtZ4c-KKJ","type":"paragraph","data":{"text":"Мы делаем упор на эти моменты, чтобы вы вдруг не подумали, что кодировка UTF-8 является универсальной. Она действительно широко распространена, но вы вполне можете столкнуться и с другими вариантами. Не будет лишним предусмотреть это в коде."}},{"id":"X8Pbjegc6t","type":"header3","data":{"text":"Один байт, два байта, три байта, четыре…","level":3},"tunes":{}},{"id":"xIiD1HI-RI","type":"paragraph","data":{"text":"Одна из важнейших особенностей UTF-8 состоит в том, что это кодировка с переменным размером."}},{"id":"ZdRxm8m2mL","type":"paragraph","data":{"text":"Вспомните раздел, посвящённый ASCII. Любой символ в этой таблице требует максимум одного байта пространства. Это можно быстро проверить с помощью следующего генератора:"}},{"id":"0FhEeKRuB9","type":"code","data":{"code":">>> all(len(chr(i).encode(\"ascii\")) == 1 for i in range(128))\nTrue","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"znpilVl1Ug","type":"paragraph","data":{"text":"С UTF-8 дела обстоят по-другому. Символы Юникода могут занимать от одного до четырёх байт. Вот пример четырёхбайтного символа:"}},{"id":"ZEv87QQAEu","type":"code","data":{"code":">>> ibrow = \"?\"\n>>> len(ibrow)\n1\n>>> ibrow.encode(\"utf-8\")\nb'\\xf0\\x9f\\xa4\\xa8'\n>>> len(ibrow.encode(\"utf-8\"))\n4\n\n>>> # Вызов list() с объектом типа bytes возвращает\n>>> # значение каждого байта\n>>> list(b'\\xf0\\x9f\\xa4\\xa8')\n[240, 159, 164, 168]","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"8rjIWkfSmn","type":"paragraph","data":{"text":"Это небольшая, но важная особенность метода len():"}},{"id":"dE_Rq_ETwv","type":"list","data":{"style":"unordered","items":["Размер единичного символа Юникода в объекте str языка Python всегда будет равен 1, вне зависимости от количества занимаемых байт.","Длина того же символа в объекте типа bytes будет варьироваться от 1 до 4."]}},{"id":"5AuKTl7oQA","type":"paragraph","data":{"text":"Таблица ниже показывает, сколько байт занимают основные типы символов."}},{"id":"tGtG1SYRC8","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/1a2fbf5c-ecc7-4048-bae9-f65e2ae7cc8e.png","id":28042},"stretched":false,"withBackground":false,"withBorder":false,"width":1158,"height":202,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/1a2fbf5c-ecc7-4048-bae9-f65e2ae7cc8e.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 9","dimensions":{"width":1158,"height":202},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/5PsYWW2Zplc_RM_F6yhu_5fetIL4HdjngTnvBht4Mw0/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/0a0Eotopwv64V8MzpaPCfH-vbsX_ABdlEcr3F9hFFO4/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/zjfb6bj_OWIe71hSvhf8axVrUfCD-2PkKMW4FdXGWMk/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/A2FgcaXf1CRkZNwK5WLSSU0ywRmd6jj-FZBpjDqyTNk/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/YO0qptHqxJ1rUxYS7Y-qudDoxvWVp0g3Q3mU-Ys4zgM/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/Z9DerGdrayHY2SO8KcmsnINIZuPcUHMU0OMIRtQIaCU/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/KOT1WPhqR1nAQYFaG0E12FC0JpZxfu9ShmkpShO4wBc/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/qZkzHypgdET2GpKRFuHOuHtMOa37ikO1cp56Qsos4c8/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzFhMmZiZjVjLWVjYzctNDA0OC1iYWU5LWY2NWUyYWU3Y2M4ZS5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"8zCIZNYwWA","type":"paragraph","data":{"text":"*Такие как английский, арабский, греческий, ирландский.
**Масса языков и символов, в основном китайский, японский и корейский с разделением по томам (а также ASCII и латиница).
***Дополнительные символы китайского, японского, корейского и вьетнамского, а также другие символы и эмоджи."}},{"id":"40aaf588-6f48-4baa-a67d-d476c8c6c592","type":"banner-blank","data":{}},{"id":"vr5neR3vMn","type":"paragraph","data":{"text":"Прим. У UTF-8 есть и другие технические особенности. Те, кто работает на Python, редко с ними сталкиваются, поэтому мы не будем раскрывать их в этой статье, но упомянем вкратце, чтобы сохранить полноту картины. Так, UTF-8 использует коды-префиксы, указывающие на количество байт в последовательности. Такой приём позволяет декодеру группировать байты в условиях кодировки с переменным размером. Количество байт в последовательности определяется первым её байтом. Другие технические подробности можно найти на странице Википедии, посвящённой UTF-8 или на официальном сайте."}},{"id":"SKgQ-s-jDL","type":"header3","data":{"text":"Особенности UTF-16 и UTF-32","level":3},"tunes":{}},{"id":"YmYeF1XWkg","type":"paragraph","data":{"text":"Рассмотрим альтернативные кодировки, UTF-16 и UTF-32. Различие между ними и UTF-8 в основном практическое. Продемонстрируем величину расхождения с помощью перевода туда и обратно:"}},{"id":"gqJ02Qw0PC","type":"code","data":{"code":">>> letters = \"αβγδ\"\n>>> rawdata = letters.encode(\"utf-8\")\n>>> rawdata.decode(\"utf-8\")\n'αβγδ'\n>>> rawdata.decode(\"utf-16\") # ?\n'뇎닎돎듎'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"Hv7ppPqIRf","type":"paragraph","data":{"text":"В данном случае, когда мы кодируем четыре буквы греческого алфавита в двоичные данные с помощью UTF-8, а декодируем обратно в текст с использованием UTF-16, на выходе получается строка с совершенно другими символами (из корейского алфавита)."}},{"id":"EpwPg72llq","type":"paragraph","data":{"text":"Так происходит, если для кодирования и декодирования применяют разные кодировки. Два варианта декодирования одного бинарного объекта могут вернуть текст даже на другом языке."}},{"id":"SLDLaY7tiV","type":"paragraph","data":{"text":"Таблица ниже демонстрирует количество байт, используемых в разных кодировках:"}},{"id":"a8SQ3g1XvF","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/bbd21923-d72a-4acc-95d5-942281511af9.png","id":28043},"stretched":false,"withBackground":false,"withBorder":false,"width":591,"height":150,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/bbd21923-d72a-4acc-95d5-942281511af9.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 10","dimensions":{"width":591,"height":150},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/YmtY2-tUwx80__EngBvl-ZrfKPwL7HQVRd12yhHu_Q4/rs:fill:591:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":591},{"url":"https://tproger.ru/signed_image/HkH7QjNi8r77PAnCShCXInlaTGGQCeG2qkMPLKIXExw/rs:fill:1182:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":1182},{"url":"https://tproger.ru/signed_image/YmtY2-tUwx80__EngBvl-ZrfKPwL7HQVRd12yhHu_Q4/rs:fill:591:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":591},{"url":"https://tproger.ru/signed_image/HkH7QjNi8r77PAnCShCXInlaTGGQCeG2qkMPLKIXExw/rs:fill:1182:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":1182},{"url":"https://tproger.ru/signed_image/YmtY2-tUwx80__EngBvl-ZrfKPwL7HQVRd12yhHu_Q4/rs:fill:591:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":591},{"url":"https://tproger.ru/signed_image/HkH7QjNi8r77PAnCShCXInlaTGGQCeG2qkMPLKIXExw/rs:fill:1182:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":1182},{"url":"https://tproger.ru/signed_image/Pm5jrSI2N4GEQ6u6XW6gyrzxhZqVWZ5dyZ-ZJOs-nUk/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/4qMFzWOqM-zCN-cL9_3mg1pb7pNlMTTO-9FZ1PU5iUU/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2JiZDIxOTIzLWQ3MmEtNGFjYy05NWQ1LTk0MjI4MTUxMWFmOS5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"591px"},{"media":"(min-width: 1281px)","size":"591px"},{"media":"(min-width: 1281px)","size":"591px"},{"media":"(min-width: 961px)","size":"591px"},{"media":"(min-width: 671px)","size":"591px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"09pt9SMaFB","type":"paragraph","data":{"text":"Любопытный аспект семейства UTF: UTF-8 не всегда занимает меньше памяти, чем UTF-16. Хотя с точки зрения математики это выглядит маловероятным, однако это возможно:"}},{"id":"tNQDgduNvT","type":"code","data":{"code":">>> text = \"記者鄭啟源羅智堅\"\n>>> len(text.encode(\"utf-8\"))\n26\n>>> len(text.encode(\"utf-16\"))\n22","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"8XeIXADwCA","type":"paragraph","data":{"text":"Так получается из-за того, что кодовые точки в диапазоне от U+0800 до U+FFFF (от 2048 до 65535 в десятичной системе) в кодировке UTF-8 занимают три байта, а в UTF-16 только два."}},{"id":"2f4d78bf-9173-4416-b005-f4be36977c19","type":"banner-blank","data":{}},{"id":"Wtk4GP0Zyw","type":"paragraph","data":{"text":"Это не означает, что нужно работать с UTF-16, независимо от того, насколько часто вы работаете с символами в этом диапазоне. Один из самых важных поводов придерживаться UTF-8 — в мире кодировок лучше держаться вместе с большинством."}},{"id":"tksjvgalHr","type":"paragraph","data":{"text":"Кроме того, в 2019 году компьютерная память стоит дёшево, и экономия четырёх байт за счёт использования нестандартной кодировки вряд ли стоит усилий."}},{"id":"vhR62nU4Jv","type":"paragraph","data":{"text":"Прим. перев. Есть и более весомые причины использовать UTF-8. Среди них её обратная совместимость с ASCII, а также то, что это самосинхронизирующаяся кодировка."}},{"id":"1yKbv5WGAv","type":"header2","data":{"text":"Python и встроенные функции","level":2},"tunes":{}},{"id":"DAJrQuGVzw","type":"paragraph","data":{"text":"Вы освоили самую сложную часть статьи. Теперь посмотрим, как всё изученное реализуется на Python."}},{"id":"qMVMIkTbES","type":"paragraph","data":{"text":"В Python есть несколько встроенных функций, каким-либо образом относящихся к системам счисления и кодировке:"}},{"id":"r3wSkg70so","type":"list","data":{"style":"unordered","items":["ascii()","bin()","bytes()","chr()","hex()","int()","oct()","ord()","str()"]}},{"id":"IanSTwv0Zr","type":"paragraph","data":{"text":"Логически их можно сгруппировать по назначению."}},{"id":"qSudbfFsWb","type":"list","data":{"style":"unordered","items":["ascii(), bin(), hex() и oct() предназначены для различного представления вводных данных. Все они возвращают str. Первая, ascii(), производит представление объекта в ASCII, экранируя не входящие в эту таблицу символы. Оставшиеся три дают соответственно двоичное, шестнадцатеричное и восьмеричное представление целого числа. Все эти функции меняют только представление объекта, не изменяя непосредственно вводные данные.","bytes(), str() и int() — конструкторы классов соответствующих типов: bytes, str, и int. Все они предлагают способы подогнать данные под желаемый тип.","ord() и chr() выполняют противоположные действия. ord() конвертирует символ в десятичную кодовую точку, а chr() принимает в качестве аргумента целое число, и возвращает символ, кодовой точкой которого это число является."]}},{"id":"OnJL8gAP6V","type":"paragraph","data":{"text":"В таблице ниже эти функции разобраны более подробно:"}},{"id":"aS1etBvwe5","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/297e0827-8aa8-48ed-8eb6-8a4587d7c747.png","id":28044},"stretched":false,"withBackground":false,"withBorder":false,"width":1317,"height":715,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/297e0827-8aa8-48ed-8eb6-8a4587d7c747.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 11","dimensions":{"width":1317,"height":715},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/OPcl69TokyprxUoiEZc_fb_HxOspaAwyOMaqziW11dA/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/_uvXURY2EOri9dF-LX-PwpQcrMTSU-amdriwQRHzIB8/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/GJwjmSjS7kGf84NqTkw10-xsP70q5Zo5k6KTXYkJI6s/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/D6aiKIPdIY4YX0X4cAIbSPteSrdy1WOlH6yW4nL9WPQ/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/ZFQVSiIV5Ie00Ym8X8MudQ5GmRiWmlnZwlMyNmlSIlA/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/I-1c2XwalJn_XBOf_h5LQ9kcWI17V05MsxfNM8RvxxU/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/7L7LIMuxngHWMpK4vLgxJMiQAIKM7JppGiNvyWYWyMQ/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/ZadcIsiL_egLoD6uLqAgq1_4MMO8jJb9urJHbGZ2dpk/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxLzI5N2UwODI3LThhYTgtNDhlZC04ZWI2LThhNDU4N2Q3Yzc0Ny5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"Qz_crojb2i","type":"paragraph","data":{"text":"Дальше можно посмотреть полезные примеры использования этих функций."}},{"id":"FJuvai_slQ","type":"accordion","data":{"id":"tp-accordion-8025175e-14e7-4467-8670-b11c01550abf","title":"Примеры использования встроенных функций","content":"{\"time\":1708523950042,\"blocks\":[{\"id\":\"dD2cm5zsTP\",\"type\":\"paragraph\",\"data\":{\"text\":\"ascii():\"}},{\"id\":\"H2obHZ9GAX\",\"type\":\"code\",\"data\":{\"code\":\">>> ascii(\\\"abcdefg\\\")\\n\\\"'abcdefg'\\\"\\n\\n>>> ascii(\\\"jalepeño\\\")\\n\\\"'jalepe\\\\\\\\xf1o'\\\"\\n\\n>>> ascii((1, 2, 3))\\n'(1, 2, 3)'\\n\\n>>> ascii(0xc0ffee) # Шестнадцатеричный литерал (int)\\n'12648430'\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"PjguWYaxm-\",\"type\":\"paragraph\",\"data\":{\"text\":\"bin():\"}},{\"id\":\"gXA_Q69hGe\",\"type\":\"code\",\"data\":{\"code\":\">>> bin(0)\\n'0b0'\\n\\n>>> bin(400)\\n'0b110010000'\\n\\n>>> bin(0xc0ffee) # Шестнадцатеричный литерал (int)\\n'0b110000001111111111101110'\\n\\n>>> [bin(i) for i in [1, 2, 4, 8, 16]] # `int` + обработка списка\\n['0b1', '0b10', '0b100', '0b1000', '0b10000']\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"EYHU_i20MC\",\"type\":\"paragraph\",\"data\":{\"text\":\"bytes():\"}},{\"id\":\"3JDTMTQr7n\",\"type\":\"code\",\"data\":{\"code\":\">>> # Последовательность целых чисел\\n>>> bytes((104, 101, 108, 108, 111, 32, 119, 111, 114, 108, 100))\\nb'hello world'\\n\\n>>> bytes(range(97, 123)) # Последовательность целых чисел\\nb'abcdefghijklmnopqrstuvwxyz'\\n\\n>>> bytes(\\\"real ?\\\", \\\"utf-8\\\") # Строка + кодировка\\nb'real \\\\xf0\\\\x9f\\\\x90\\\\x8d'\\n\\n>>> bytes(10)\\nb'\\\\x00\\\\x00\\\\x00\\\\x00\\\\x00\\\\x00\\\\x00\\\\x00\\\\x00\\\\x00'\\n\\n>>> bytes.fromhex('c0 ff ee')\\nb'\\\\xc0\\\\xff\\\\xee'\\n\\n>>> bytes.fromhex(\\\"72 65 61 6c 70 79 74 68 6f 6e\\\")\\nb'realpython'\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"4Ee9uGHxJw\",\"type\":\"paragraph\",\"data\":{\"text\":\"chr():\"}},{\"id\":\"kfFPMmGnn4\",\"type\":\"code\",\"data\":{\"code\":\">>> chr(97)\\n'a'\\n\\n>>> chr(7048)\\n'ᮈ'\\n\\n>>> chr(1114111)\\n'\\\\U0010ffff'\\n\\n>>> chr(0x10FFFF) # Шестнадцатеричный литерал (int)\\n'\\\\U0010ffff'\\n\\n>>> chr(0b01100100) # Двоичный литерал (int)\\n'd'\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"jhH7rv-n9z\",\"type\":\"paragraph\",\"data\":{\"text\":\"hex():\"}},{\"id\":\"Pt99683JPa\",\"type\":\"code\",\"data\":{\"code\":\">>> hex(100)\\n'0x64'\\n\\n>>> [hex(i) for i in [1, 2, 4, 8, 16]]\\n['0x1', '0x2', '0x4', '0x8', '0x10']\\n\\n>>> [hex(i) for i in range(16)]\\n['0x0', '0x1', '0x2', '0x3', '0x4', '0x5', '0x6', '0x7',\\n '0x8', '0x9', '0xa', '0xb', '0xc', '0xd', '0xe', '0xf']\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"NfuYZssQPU\",\"type\":\"paragraph\",\"data\":{\"text\":\"int():\"}},{\"id\":\"Rwh5O5rSAB\",\"type\":\"code\",\"data\":{\"code\":\">>> int(11.0)\\n11\\n\\n>>> int('11')\\n11\\n\\n>>> int('11', base=2)\\n3\\n\\n>>> int('11', base=8)\\n9\\n\\n>>> int('11', base=16)\\n17\\n\\n>>> int(0xc0ffee - 1.0)\\n12648429\\n\\n>>> int.from_bytes(b\\\"\\\\x0f\\\", \\\"little\\\")\\n15\\n\\n>>> int.from_bytes(b'\\\\xc0\\\\xff\\\\xee', \\\"big\\\")\\n12648430\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"-fl5yfBvgf\",\"type\":\"paragraph\",\"data\":{\"text\":\"oct():\"}},{\"id\":\"058P5KRKEf\",\"type\":\"code\",\"data\":{\"code\":\">>> ord(\\\"a\\\")\\n97\\n\\n>>> ord(\\\"ę\\\")\\n281\\n\\n>>> ord(\\\"ᮈ\\\")\\n7048\\n\\n>>> [ord(i) for i in \\\"hello world\\\"]\\n[104, 101, 108, 108, 111, 32, 119, 111, 114, 108, 100]\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}},{\"id\":\"urR363YFMr\",\"type\":\"paragraph\",\"data\":{\"text\":\"str():\"}},{\"id\":\"pUNHajQiSk\",\"type\":\"code\",\"data\":{\"code\":\">>> str(\\\"str of string\\\")\\n'str of string'\\n\\n>>> str(5)\\n'5'\\n\\n>>> str([1, 2, 3, 4]) # Like [1, 2, 3, 4].__str__(), but use str()\\n'[1, 2, 3, 4]'\\n\\n>>> str(b\\\"\\\\xc2\\\\xbc cup of flour\\\", \\\"utf-8\\\")\\n'¼ cup of flour'\\n\\n>>> str(0xc0ffee)\\n'12648430'\",\"language\":\"python\",\"lineNumbers\":false,\"startLineNumber\":1,\"stretched\":false}}],\"version\":\"2.25.0\"}"}},{"id":"onaW0GXxzE","type":"header2","data":{"text":"Литералы для строк на Python","level":2},"tunes":{}},{"id":"9LUfugn8u7","type":"paragraph","data":{"text":"Вместо использования конструктора str(), объект этого типа чаще вводят напрямую:"}},{"id":"hjXPD1dcex","type":"code","data":{"code":">>> meal = \"shrimp and grits\"","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"x5GuY9bAm2","type":"paragraph","data":{"text":"Выглядит достаточно просто. Но есть один аспект, о котором нужно помнить. Поскольку Python позволяет использовать все возможности Юникода, можно «напечатать» символы, которых вы никогда не найдёте на клавиатуре. Можно скопировать и вставить их прямо в оболочку интерпретатора:"}},{"id":"KN8djzoKve","type":"code","data":{"code":">>> alphabet = 'αβγδεζηθικλμνξοπρςστυφχψ'\n>>> print(alphabet)\nαβγδεζηθικλμνξοπρςστυφχψ","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"S-U-7jhXjQ","type":"paragraph","data":{"text":"Кроме ввода через консоль реальных, неэкранированых символов Юникода, существуют и другие способы ввода текстовых строк."}},{"id":"5UaHZukJ0M","type":"paragraph","data":{"text":"Самые насыщенные разделы документации Python посвящены лексическому анализу. В частности, раздел о строках и литералах. Возможно, для понимания данного аспекта языка этот раздел придётся неоднократно перечитать."}},{"id":"64626c79-9338-4a0c-a9ab-00d6a9d648d0","type":"banner-blank","data":{}},{"id":"toZDNXsDry","type":"paragraph","data":{"text":"Кроме прочего, там говорится о шести возможных способах ввода одного символа Юникода."}},{"id":"vtH5Rt5USc","type":"paragraph","data":{"text":"Первый, и самый распространённый метод, как вы уже видели — прямой ввод. Проблема состоит в поиске необходимых сочетаний клавиш. Здесь и могут пригодиться другие способы получения и представления символов. Вот полный список:"}},{"id":"3mjOjfwGsv","type":"image","data":{"alt":"","title":"","caption":"","file":{"url":"https://media.tproger.ru/user-uploads/33794/2024-02-21/fb0a550a-3fa4-45b0-8471-365306769daf.png","id":28045},"stretched":false,"withBackground":false,"withBorder":false,"width":1298,"height":283,"optimizedFile":{"original":"https://media.tproger.ru/user-uploads/33794/2024-02-21/fb0a550a-3fa4-45b0-8471-365306769daf.png","alt":"Исчерпывающее руководство по Юникоду и кодировке символов в Python 12","dimensions":{"width":1298,"height":283},"additionalSizes":{"srcSet":[{"url":"https://tproger.ru/signed_image/NUr93kcWzcGQv2fIEJWEiL109SPS4PjY96mVyI8nfUY/rs:fill:766:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":766},{"url":"https://tproger.ru/signed_image/MC5P7AWk5JoDAU5830XR42nzr4y_dPYC7laH8JeSi14/rs:fill:1532:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":1532},{"url":"https://tproger.ru/signed_image/2XTZa-XQVizf2-HGvJdBZNnkNdNm4QEfNL-RwfAS0BU/rs:fill:686:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":686},{"url":"https://tproger.ru/signed_image/IUb1q4Nx0uSf-XyMEok-6j2PtSp7gyZtBa6UZcCy0Pc/rs:fill:1372:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":1372},{"url":"https://tproger.ru/signed_image/d_5rLuKmvzPvIQmcEGQcNANEPAk4EVUZIFQdwvULdDk/rs:fill:636:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":636},{"url":"https://tproger.ru/signed_image/1aN6MZB52fI_uouMDMxfiiOiJh1wYdvFs17rWPgLQcg/rs:fill:1272:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":1272},{"url":"https://tproger.ru/signed_image/i8JHlWm0DGY6nfvhE9egl2_0x4xmnsDkqV7hfeWkoeA/rs:fill:466:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":466},{"url":"https://tproger.ru/signed_image/oYUYHLkeYV4UlMMILFix4M2m2O3I2FLy4D7vSoi3Yd0/rs:fill:932:0:true/cb:vimg_2/f:webp/aHR0cHM6Ly9tZWRpYS50cHJvZ2VyLnJ1L3VzZXItdXBsb2Fkcy8zMzc5NC8yMDI0LTAyLTIxL2ZiMGE1NTBhLTNmYTQtNDViMC04NDcxLTM2NTMwNjc2OWRhZi5wbmc","dpr":1,"width":932}],"sizes":[{"media":"(min-width: 1441px)","size":"766px"},{"media":"(min-width: 1281px)","size":"686px"},{"media":"(min-width: 1281px)","size":"766px"},{"media":"(min-width: 961px)","size":"766px"},{"media":"(min-width: 671px)","size":"636px"},{"media":"(min-width: 500px)","size":"466px"}]}}}},{"id":"7WcWVWaT4K","type":"paragraph","data":{"text":"Это соответствие можно проверить на практике:"}},{"id":"1A21YdZ26y","type":"code","data":{"code":">>> (\n... \"a\" ==\n... \"\\x61\" == \n... \"\\N{LATIN SMALL LETTER A}\" ==\n... \"\\u0061\" ==\n... \"\\U00000061\"\n... )\nTrue","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"NaRUzOVJas","type":"paragraph","data":{"text":"Нужно однако упомянуть и два основных затруднения при использовании этих методов:"}},{"id":"qjWhqqvqaM","type":"list","data":{"style":"ordered","items":["Не каждый способ работает со всеми символами. Шестнадцатеричное представление числа 300 выглядит как 0x012c, а это значение просто не поместится в экранирующий код \"\\xhh\", так как в нём допускаются всего две цифры. Самая большая кодовая точка, которую можно втиснуть в этот формат — \"\\xff\" (\"ÿ\"). Аналогичо \"\\ooo\" можно использовать только до \"\\777\" (\"ǿ\").","Для \\xhh, \\uxxxx, и \\Uxxxxxxxx требуется вводить ровно столько цифр, сколько указано в примерах. Это может стать неприятным сюрпризом, поскольку обычно основанные на Юникоде таблицы содержат кодовые точки для символов с префиксом U+ и варьирующимся количеством шестнадцатеричных символов. В этих таблицах кодовые точки отображают только значимые цифры."]}},{"id":"UonAMxv4OC","type":"paragraph","data":{"text":"Например, если вы обратитесь к сайту unicode-table.com с целью получить данные готического символа faihu (или fehu), \"?\", его кодовая точка будет U+10346."}},{"id":"ECqmpgIaP1","type":"paragraph","data":{"text":"Как же можно разместить его в \"\\uxxxx\" или \"\\Uxxxxxxxx\"? В \"\\uxxxx\" эту кодовую точку вместить невозможно, поскольку она соответствует четырёхбайтному символу. А чтобы представить его в \"\\Uxxxxxxxx\", придётся выровнять последовательность с левой стороны:"}},{"id":"gnEdGgLxSq","type":"code","data":{"code":">>> \"\\U00010346\"\n'?'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"7D2PwnTI1E","type":"paragraph","data":{"text":"Это также значит, что экранирующая последовательность \"\\Uxxxxxxxx\" — единственная последовательность, способная вместить любой символ Юникода."}},{"id":"xKNtZDN-3N","type":"paragraph","data":{"text":"Прим. Вот код небольшой, но удобной функции, переводящей записи типа \"U+10346\" в приемлемый для Python формат с помощью str.zfill():"}},{"id":"-WOqtInzss","type":"code","data":{"code":">>> def make_uchr(code: str):\n... return chr(int(code.lstrip(\"U+\").zfill(8), 16))\n>>> make_uchr(\"U+10346\")\n'?'\n>>> make_uchr(\"U+0026\")\n'&'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"wV3YEEhqQE","type":"header2","data":{"text":"Другие поддерживаемые Python кодировки","level":2},"tunes":{}},{"id":"Ik7PBdYj_3","type":"paragraph","data":{"text":"Пока что мы рассказали про 4 разные кодировки символов:"}},{"id":"eoOIpb_v0Y","type":"list","data":{"style":"ordered","items":["ASCII;","UTF-8;","UTF-16;","UTF-32."]}},{"id":"C8pvVL2SW1","type":"paragraph","data":{"text":"Однако существует большое количество и других вариантов кодировки."}},{"id":"yeq3qPG3ec","type":"paragraph","data":{"text":"Один из примеров — Latin-1 (другое название ISO-8859-1). Это базовая кодировка для Hypertext Transfer Protocol (HTTP) в спецификации RFC 2616. Для Windows существует собственный вариант Latin-1, который называется cp1252."}},{"id":"38eb6bdc-0aec-4960-8462-88cbfe427263","type":"banner-blank","data":{}},{"id":"ugJd9CJQMj","type":"paragraph","data":{"text":"Прим. Кодировка ISO-8859-1 всё ещё широко используется. Библиотека requests неукоснительно придерживается спецификации RFC 2616, используя её по умолчанию для содержимого отзывов HTTP/HTTPS. Если в заголовке Content-Type находится слово «text» и не выбрана другая кодировка, requests использует ISO-8859-1."}},{"id":"a2tjRZxwrl","type":"paragraph","data":{"text":"Полный список допустимых кодировок можно найти в документации модуля codecs, входящего в набор стандартных библиотек Python."}},{"id":"pO5CAvcjGK","type":"paragraph","data":{"text":"Среди этих кодировок стоит упомянуть ещё одну, зачастую весьма полезную. Это \"unicode-escape\". Если вы декодировали str и хотите быстро получить представление содержащихся в ней экранированных литералов Юникода, можно определить эту кодировку в .encode:"}},{"id":"NTjDzqWLct","type":"code","data":{"code":">>> alef = chr(1575) # Или \"\\u0627\"\n>>> alef_hamza = chr(1571) # Или \"\\u0623\"\n>>> alef, alef_hamza\n('ا', 'أ')\n>>> alef.encode(\"unicode-escape\")\nb'\\\\u0627'\n>>> alef_hamza.encode(\"unicode-escape\")\nb'\\\\u0623'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"qrJidTN3P8","type":"header2","data":{"text":"Вы знаете, что говорят насчёт предположений…","level":2},"tunes":{}},{"id":"SRKNOUQAEu","type":"paragraph","data":{"text":"Хотя Python по умолчанию предполагает, что файлы и код созданы на основе кодировки UTF-8, вам, как программисту, не следует делать аналогичное предположение относительно сторонних данных."}},{"id":"bX6fminvOR","type":"paragraph","data":{"text":"Когда вы получаете данные в двоичном коде из внешних источников, из файла или по сетевому соединению, стоит проверить, указана ли кодировка. Если нет — вы можете уточнить."}},{"id":"ae827847-827c-4fbf-b874-c57d47e38069","type":"banner-blank","data":{}},{"id":"mQy6kdTr1y","type":"paragraph","data":{"text":"Все операции ввода-вывода осуществляют в байтах, наборе нулей и единиц, пока вы не сообщите системе кодировку для преобразования этих данных в текст."}},{"id":"R__WTzswAl","type":"paragraph","data":{"text":"Приведём пример того, что может пойти не так. Допустим, вы подписаны на API, который передаёт вам рецепт блюда дня. Вы получаете его в формате bytes и раньше всегда без проблем декодировали с использованием .decode(\"utf-8\") . Но именно в этот день часть рецепта выглядела так:"}},{"id":"77u_pPwOTs","type":"code","data":{"code":">>> data = b\"\\xbc cup of flour\"","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"hWoD1DsPIH","type":"paragraph","data":{"text":"Похоже, нам потребуется мука, но сколько?"}},{"id":"vCmHgjRzPd","type":"code","data":{"code":">>> data.decode(\"utf-8\")\nTraceback (most recent call last):\n File \"\", line 1, in \nUnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 0: invalid start byte","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"gDSRA-oH2Y","type":"paragraph","data":{"text":"А вот и та самая неприятная ошибка UnicodeDecodeError. Подобное вполне может произойти, когда вы делаете предположение об используемой кодировке. Уточняем у разработчика ресурса, предоставляющего API. Выясняется, что полученный вами файл был закодирован с помощью Latin-1:"}},{"id":"Y6fEaPRnCh","type":"code","data":{"code":">>> data.decode(\"latin-1\")\n'¼ cup of flour'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"c1fWoj2Jn4","type":"paragraph","data":{"text":"Именно в этом и крылась проблема. В Latin-1 каждый символ кодируется одним байтом, в вот в UTF-8 символ «¼» требует два байта (\"\\xc2\\xbc\")."}},{"id":"i1RHKy9FMM","type":"paragraph","data":{"text":"Как видите, делать предположения относительно кодировки полученных данных довольно рискованно. Обычно это UTF-8, однако в тех случаях, когда это не так, у вас могут возникнуть проблемы."}},{"id":"fb62662f-1bf1-4a61-a53e-da0ebf56fb50","type":"banner-blank","data":{}},{"id":"EWKZnLYLRV","type":"paragraph","data":{"text":"Если уж у вас нет другого выхода и кодировку приходится угадывать, обратите внимание на библиотеку chardet. В ней используются разработанные в Mozilla методы, позволяющие сделать обоснованное предположение насчёт кодировки данных. Однако учтите, что такие инструменты должны быть вашим последним средством, не стоит прибегать к ним, если есть возможность решить вопрос другим способом."}},{"id":"Cu1S9UjS34","type":"header2","data":{"text":"Всякая всячина: unicodedata","level":2},"tunes":{}},{"id":"YwQCa4OVPo","type":"paragraph","data":{"text":"Нельзя не упомянуть также модуль unicodedata. Он позволяет взаимодействовать с базой данных символов Юникода (Unicode Character Database, UCD)."}},{"id":"P2bnsrtHF8","type":"code","data":{"code":">>> import unicodedata\n\n>>> unicodedata.name(\"€\")\n'EURO SIGN'\n>>> unicodedata.lookup(\"EURO SIGN\")\n'€'","language":"python","lineNumbers":false,"startLineNumber":1,"stretched":false}},{"id":"KGHcY6lEWJ","type":"header2","data":{"text":"Подводим итоги","level":2},"tunes":{}},{"id":"OjH_ypY8vb","type":"paragraph","data":{"text":"Итак, в этой статье вы познакомились со следующими концепциями кодировки символов в Python:"}},{"id":"4JR8SOUGQn","type":"list","data":{"style":"unordered","items":["Фундаментальные принципы кодировки символов и систем счисления;","Целочисленные, двоичные, восьмеричные, шестнадцатеричные, строковые и байтовые литералы в Python;","Встроенные функции языка, работающие с кодировкой и системами счисления;","Особенности обработки текстовых и двоичных данных."]}},{"id":"eqNZkUXW4f","type":"header2","data":{"text":"Дополнительные источники","level":2},"tunes":{}},{"id":"KOjRecUtM0","type":"paragraph","data":{"text":"Ещё больше информации можно получить из следующих материалов (на английском языке):"}},{"id":"EbDD8OVfGm","type":"list","data":{"style":"unordered","items":["UTF-8 Everywhere Manifesto.","Joel Spolsky: Минимальный уровень знаний о Юникоде и наборах символов, требующийся каждому разработчику ПО (Без отговорок!). ","David Zentgraf: Что обязательно должен знать о кодировках и наборах символов каждый программист для работы с текстом. ","Mozilla: Комплексный подход к определению языков и кодировок.","Wikipedia.","John Skeet: Юникод и .NET.","Network Working Group, RFC 3629: UTF-8, формат преобразования ISO 10646.","Unicode Technical Standard #18: Регулярные выражения Юникода."]}},{"id":"1Y3rcVNa54","type":"paragraph","data":{"text":"В документации языка нашему вопросу посвящены два раздела:"}},{"id":"GJaxx6wscK","type":"list","data":{"style":"unordered","items":["What’s New in Python 3.0;","Unicode HOWTO."]}}],"version":"2.25.0"}

Ошибка в настройках сайта