{"blocks":[{"type":"paragraph","data":{"text":"Идея написать эту статью пришла мне в голову, когда одного из моих коллег заставили пройти начальный курс по CS в моем университете. Мы с ним искали способ написать корректную программу так, чтобы она проходила тесты, но ни один из экзаменующих не мог понять, как и почему она работает. Так я начал вспоминать разные трюки в C, которые видел когда-то в старом коде, и один из них был весьма занимательным. Идея этого трюка пришла мне в голову из-за названия блога «main is usually a function». Я подумал тогда: «А в каких случаях main может не быть функцией?» Давайте это выясним!"}},{"type":"paragraph","data":{"text":"Если вы хотите скачать исходный код к этой статье, я выложил его здесь. Обратите внимание, что я писал его под 64-битный Linux, и вам, возможно, придется поправить его под свою платформу."}},{"id":"c5f363ce-b78c-442e-9d47-c23e3c77acf2","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Я, как и, полагаю, многие разработчики, ищу ответ на вопрос следующим образом. Шаг 1: поиск в Google. Шаг 2: перехожу по каждой релевантной ссылке на первой странице. Если проблема не решена, я изменяю запрос и повторяю все заново. В этот раз мне повезло, и ответ нашелся при первом же поиске на Stackoverflow. В 1984 году короткая программа выиграла IOCCC. main в ней была объявлена так: short main[] = {...}, и это каким-то образом работало! К сожалению, она была написана под абсолютно другую архитектуру и компилятор, и я не смог её собрать, чтобы посмотреть, что она делает, но, судя по тому, что это был просто набор чисел, я мог предположить, что в массиве были байты скомпилированного кода, который просто помещался в память на место main."}},{"type":"paragraph","data":{"text":"Приняв версию, что код этой программы — скомпилированная функция main, представленная в виде массива, давайте посмотрим, сможем ли мы написав маленькую программу и повторить этот трюк."}},{"type":"code","data":{"code":"char main[] = \"Hello world!\";","language":"c lazy-code"}},{"type":"code","data":{"code":"$ gcc -Wall main_char.c -o first\r\nmain_char.c:1:6: warning: ‘main’ is usually a function [-Wmain]\r\n char main[] = \"Hello world!\";\r\n ^\r\n$ ./first\r\nSegmentation fault","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Отлично! Это сработало! Почти… Итак, наша следующая цель — напечатать что-нибудь на экран. Насколько я помнил тогда ассемблер, в скомпилированном коде есть секция команд и секция данных. При этом в секции команд содержится исполняемый, но не изменяемый код, а в секции данных лежат изменяемые данные, которые нельзя выполнить. В нашем случае, мы можем только заполнить код функции main, поэтому все, что мы положим в секцию данных, будет нам недоступно. Нам нужно найти способ положить строку «Hello world!» в функцию main и сослаться на нее."}},{"type":"paragraph","data":{"text":"Я стал думать, что можно написать за как можно меньшее количество строк. Поскольку я знал, что собираю программу под 64-битный Linux, я мог вызвать системную команду write, которая выведет что-нибудь на экран. Сейчас я, конечно, понимаю, что мог тогда и не использовать ассемблер, но, в то же время, я рад, что получил такой опыт. Начинать со встроенного ассемблера в GCC было непросто, но когда я более-менее привык, дела пошли быстрее."}},{"type":"paragraph","data":{"text":"Сначала было очень трудно. Оказалось, что все, что я мог узнать об ассемблере через поисковик, это старый Intel-овский синтаксис, причем для 32-битной архитектуры. Мне же надо было скомпилировать код под 64-битную систему без каких-либо специальных флагов компилятора. Это значит никаких флагов и опций компилятора, никаких дополнительных шагов линковщика и встроенный в GCC синтаксис AT&T. Бо́льшую часть времени я потратил на поиск информации об ассемблере для 64-битных систем! Возможно, плохо искал. Здесь я пользовался по большей части методом проб и ошибок. Я всего лишь хотел вывести строку «Hello world!» на экран с помощью встроенного ассемблера, почему это так сложно? Для тех, кто хочет узнать, как это сделать, рекомендую взглянуть на эти сайты: Linux syscall list, Intro to Inline Asm, Differences between Intel and AT&T Syntax."}},{"id":"45927c8d-e4fe-4191-a481-0deee9842f8d","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"В конце концов, у меня начал получатся более-менее внятный asm-код, который даже работал. Вспомним, моя цель в том, чтобы написать такую main, которая представляет из себя массив с asm-командами, выводящими на экран «Hello World»."}},{"type":"code","data":{"code":"void main() {\r\n __asm__ (\r\n // print Hello World\r\n \"movl $1, %eax;\\n\" /* 1 is the syscall number for write on 64bit */\r\n \"movl $1, %ebx;\\n\" /* 1 is stdout and is the first argument */\r\n \"movl $message, %esi;\\n\" /* load the address of string into the second argument*/\r\n \"movl $13, %edx;\\n\" /* third argument is the length of the string to print*/\r\n \"syscall;\\n\"\r\n // call exit (so it doesn't try to run the string Hello World)\r\n // maybe I could have just used ret instead?\r\n \"movl $60,%eax;\\n\"\r\n \"xorl %ebx,%ebx; \\n\"\r\n \"syscall;\\n\"\r\n // Store the Hello World inside the main function\r\n \"message: .ascii \\\"Hello World!\\\\n\\\";\"\r\n );\r\n}","language":"c lazy-code"}},{"type":"code","data":{"code":"$ gcc -Wall asm_main.c -o second\r\nasm_main.c:1:6: warning: return type of ‘main’ is not ‘int’ [-Wmain]\r\n void main() {\r\n ^\r\n$ ./second \r\nHello World!","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Ура! Оно работает! Давайте посмотрим на скомпилированный код в 16-ричном виде, он должен совпадать один в один с ассемблерным листингом, который мы написали. Комментарии справа поясняют, что происходит."}},{"type":"code","data":{"code":"(gdb) disass main\r\nDump of assembler code for function main:\r\n 0x00000000004004ed <+0>: push %rbp ; Compiler inserted\r\n 0x00000000004004ee <+1>: mov %rsp,%rbp\r\n 0x00000000004004f1 <+4>: mov $0x1,%eax ; Its our code!\r\n 0x00000000004004f6 <+9>: mov $0x1,%ebx\r\n 0x00000000004004fb <+14>: mov $0x400510,%esi\r\n 0x0000000000400500 <+19>: mov $0xd,%edx\r\n 0x0000000000400505 <+24>: syscall \r\n 0x0000000000400507 <+26>: mov $0x3c,%eax\r\n 0x000000000040050c <+31>: xor %ebx,%ebx\r\n 0x000000000040050e <+33>: syscall \r\n 0x0000000000400510 <+35>: rex.W ; String hello world\r\n 0x0000000000400511 <+36>: gs ; its garbled since \r\n 0x0000000000400512 <+37>: insb (%dx),%es:(%rdi) ; its not real asm\r\n 0x0000000000400513 <+38>: insb (%dx),%es:(%rdi) ; so it couldn't be\r\n 0x0000000000400514 <+39>: outsl %ds:(%rsi),(%dx) ; disassembled\r\n 0x0000000000400515 <+40>: and %dl,0x6f(%rdi)\r\n 0x0000000000400518 <+43>: jb 0x400586\r\n 0x000000000040051a <+45>: and %ecx,%fs:(%rdx)\r\n 0x000000000040051d <+48>: pop %rbp ; Compiler inserted \r\n 0x000000000040051e <+49>: retq \r\nEnd of assembler dump.","language":"nasm lazy-code"}},{"type":"paragraph","data":{"text":"Это на самом деле похоже на работающую main. Теперь давайте сделаем дамп её содержимого в виде строки 16-ричных символов и посмотрим работает ли она. Для этого также можно использовать gdb. Наверняка есть и какой-то более удобный способ, если вы его знаете, можете скинуть в комментарии к оригинальной статье. Когда мы ранее дизассемблировали main, её длина была 49 байт, т.е. мы можем использовать команду dump для сохранения в файл в указанном далее виде."}},{"type":"code","data":{"code":"# example of how to print the hex \r\n(gdb) x/49xb main\r\n0x4004ed

: 0x55 0x48 0x89 0xe5 0xb8 0x01 0x00 0x00\r\n0x4004f5 : 0x00 0xbb 0x01 0x00 0x00 0x00 0xbe 0x10\r\n0x4004fd : 0x05 0x40 0x00 0xba 0x0d 0x00 0x00 0x00\r\n0x400505 : 0x0f 0x05 0xb8 0x3c 0x00 0x00 0x00 0x31\r\n0x40050d : 0xdb 0x0f 0x05 0x48 0x65 0x6c 0x6c 0x6f\r\n0x400515 : 0x20 0x57 0x6f 0x72 0x6c 0x64 0x21 0x0a\r\n0x40051d : 0x5d\r\n# example of how to save it to a file\r\n(gdb) dump memory hex.out main main+49","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Теперь у нас есть дамп, и мы можем сконвертировать его в обычные 10-ричные числа. Самый простой способ для этого, который я знаю — это использовать python. В python 2.6 и 2.7 можно просто использовать вот такую команду, чтобы получить подходящий в нашем случае массив целых чисел."}},{"type":"code","data":{"code":">>> import array\r\n>>> hex_string = \"554889E5B801000000BB01000000BE10054000BA0D0000000F05B83C00000031DB0F0548656C6C6F20576F726C64210A5D\".decode(\"hex\")\r\n>>> array.array('B', hex_string)\r\narray('B', [85, 72, 137, 229, 184, 1, 0, 0, 0, 187, 1, 0, 0, 0, 190, 16, 5, 64, 0, 186, 13, 0, 0, 0, 15, 5, 184, 60, 0, 0, 0, 49, 219, 15, 5, 72, 101, 108, 108, 111, 32, 87, 111, 114, 108, 100, 33, 10, 93])","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Я полагаю, если бы мои знания bash и unix были на более высоком уровне, я бы нашёл способ сделать это несколько проще, но гугл в ответ на что-нибудь вроде «hex dump of compiled function» выдаёт несколько вопросов про то, как напечатать 16-ричный дамп на разных языках. Тем не менее, у нас теперь есть массив разделённых запятыми чисел, представляющих нашу функцию. Попробуем записать его в новый файл и проверим, сработает ли трюк. Вот что получилось."}},{"type":"code","data":{"code":"char main[] = {\r\n 85, // push %rbp\r\n 72, 137, 229, // mov %rsp,%rbp\r\n 184, 1, 0, 0, 0, // mov $0x1,%eax\r\n 187, 1, 0, 0, 0, // mov $0x1,%ebx\r\n 190, 16, 5, 64, 0, // mov $0x400510,%esi\r\n 186, 13, 0, 0, 0, // mov $0xd,%edx\r\n 15, 5, // syscall\r\n 184, 60, 0, 0, 0, // mov $0x3c,%eax\r\n 49, 219, // xor %ebx,%ebx\r\n 15, 5, // syscall\r\n // Hello world!\\n\r\n 72, 101, 108, 108, 111, 32, 87, 111, 114, 108, 100, \r\n 33, 10, // pop %rbp\r\n 93 // retq\r\n};","language":"c lazy-code"}},{"type":"code","data":{"code":"$ gcc -Wall compiled_array_main.c -o third\r\ncompiled_array_main.c:1:6: warning: ‘main’ is usually a function [-Wmain]\r\n char main[] = {\r\n ^\r\n$ ./third \r\nSegmentation fault","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Segmentation fault! Что же я сделал не так? Настало время снова запустить gdb и попробовать посмотреть, в чём ошибка. Т.к. main теперь уже не функция, мы не можем просто использовать break main, чтобы поставить точку останова. Вместо этого можно сделать break _start, и мы получим останов на функции, которая передаёт управление на точку входа в libc (которая, в свою очередь, вызывает main) и сможем увидеть адрес, который передаётся в __libc_start_main."}},{"type":"code","data":{"code":"$ gdb ./third\r\n(gdb) break _start\r\n(gdb) run\r\n(gdb) layout asm\r\n ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐\r\nB+>│0x400400 <_start> xor %ebp,%ebp │\r\n │0x400402 <_start+2> mov %rdx,%r9 │\r\n │0x400405 <_start+5> pop %rsi │\r\n │0x400406 <_start+6> mov %rsp,%rdx │\r\n │0x400409 <_start+9> and $0xfffffffffffffff0,%rsp │\r\n │0x40040d <_start+13> push %rax │\r\n │0x40040e <_start+14> push %rsp │\r\n │0x40040f <_start+15> mov $0x400560,%r8 │\r\n │0x400416 <_start+22> mov $0x4004f0,%rcx │\r\n │0x40041d <_start+29> mov $0x601060,%rdi │\r\n │0x400424 <_start+36> callq 0x4003e0 <__libc_start_main@plt> │","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Я провел эксперимент, и понял, что в %rdi помещается адрес main, однако в этот раз что-то было не так. Ну конечно! Компилятор поместил main в секцию данных! Как я уже отмечал, в секции данных хранятся изменяемые данные, но их нельзя выполнить, а в секции с кодом хранятся выполнимые инструкции, которые нельзя изменить. Код пытался выполнить инструкции из секции данных, что и вызывало segfault. И как мне было объяснить компилятору, что моя «main» должна располагаться в разделе с кодом? Поиск ничего не дал, и я был уверен, что это конец. Пора было сдаваться и заканчивать приключение."}},{"type":"paragraph","data":{"text":"Однако эта проблема не давала мне уснуть всю ночь. Я продолжил искать пока не нашел очевидное и простое решение на Stackoverflow, но, к сожалению, потерял на него ссылку. Все, что надо было сделать — объявить main как const. Я поменял объявление на const char main[] = { и он расположился в правильной секции, и я заново попробовал его скомпилировать."}},{"type":"code","data":{"code":"$ gcc -Wall const_array_main.c -o fourth\r\nconst_array_main.c:1:12: warning: ‘main’ is usually a function [-Wmain]\r\n const char main[] = {\r\n ^\r\n$ ./fourth \r\nSL)�1�H��H�","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"А! Что он делает сейчас?! Время снова запускать gdb и понять, что происходит"}},{"type":"code","data":{"code":"gdb ./fourth\r\n(gdb) break _start\r\n(gdb) run\r\n(gdb) layout asm","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Глядя на код, мы видим, что адрес main (в ASM обозначается _start) в инструкциях на моей машине выглядит так: mov $0x4005a0,%rdi. Мы можем использовать это, чтобы поставить точку останова на main, выполняя break *0x4005a0 и затем продолжая выполнения с помощью c."}},{"type":"code","data":{"code":"(gdb) break *0x4005a0\r\n(gdb) c\r\n(gdb) x/49i $pc # $pc is the current executing instruction\r\n...\r\n 0x4005a4 : mov $0x1,%eax\r\n 0x4005a9 : mov $0x1,%ebx\r\n 0x4005ae : mov $0x400510,%esi\r\n 0x4005b3 : mov $0xd,%edx\r\n 0x4005b8 : syscall \r\n...","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Я вырезал часть кода, которая была не важна. Если вы не заметили причину ошибки, то она была в том, что адрес для вывода (0x400510) не совпадал с адресом хранения строки «Hello world!\\n» (0x4005c3)! На самом деле он до сих пор указывает на вычисленный адрес в исходном исполняемом файле и не использует относительную адресацию для вывода. Это значит, что нам надо изменить ассемблерный код, чтобы загрузить адрес строки, относительный к текущему адресу. В данных условиях это довольно сложно выполнить в 32-битном коде, но к счастью мы используем 64-битный asm, так что можно использовать инструкцию lea для упрощения задачи."}},{"type":"code","data":{"code":"void main() {\r\n __asm__ (\r\n // print Hello World\r\n \"movl $1, %eax;\\n\" /* 1 is the syscall number for write */\r\n \"movl $1, %ebx;\\n\" /* 1 is stdout and is the first argument */\r\n // \"movl $message, %esi;\\n\" /* load the address of string into the second argument*/\r\n // instead use this to load the address of the string \r\n // as 16 bytes from the current instruction\r\n \"leal 16(%eip), %esi;\\n\"\r\n \"movl $13, %edx;\\n\" /* third argument is the length of the string to print*/\r\n \"syscall;\\n\"\r\n // call exit (so it doesn't try to run the string Hello World\r\n // maybe I could have just used ret instead\r\n \"movl $60,%eax;\\n\"\r\n \"xorl %ebx,%ebx; \\n\"\r\n \"syscall;\\n\"\r\n // Store the Hello World inside the main function\r\n \"message: .ascii \\\"Hello World!\\\\n\\\";\"\r\n );\r\n}","language":"c lazy-code"}},{"type":"paragraph","data":{"text":"Измененный код прокомментирован, так что вы можете посмотреть его. Компилируем код и проверяем, что он работает."}},{"type":"code","data":{"code":"$ gcc -Wall relative_str_asm.c -o fifth\r\nrelative_str_asm.c:1:6: warning: return type of ‘main’ is not ‘int’ [-Wmain]\r\n void main() {\r\n ^\r\n$ ./fifth \r\nHello World!","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"А сейчас мы можем снова использовать способы, описанные выше, чтобы извлечь hex-значения в виде целочисленного массива. Но в то же время, я хочу сделать это более скрытно и запутанно, используя все 4 байта, которые дают мне int’ы. Этого можно добиться, выводя информацию в gdb как int вместо выгрузки hex в файл и после копируя его в программу."}},{"type":"code","data":{"code":"gdb ./fifth\r\n(gdb) x/13dw main\r\n0x4004ed

: -443987883 440 113408 -1922629632\r\n0x4004fd : 4149 899584 84869120 15544\r\n0x40050d : 266023168 1818576901 1461743468 1684828783\r\n0x40051d : -1017312735","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Я выбрал число 13, так как размер main равен 49 байтам и результат деления 49 на 4 округляется до 13 для обеспечения надежности. Так как мы выходим из функции раньше, это ничего не меняет. Теперь, все, что нам необходимо сделать, — скопировать и вставить этот код в наш compiled_array_main.c и запустить его."}},{"type":"code","data":{"code":"const int main[] = {\r\n -443987883, 440, 113408, -1922629632,\r\n 4149, 899584, 84869120, 15544,\r\n 266023168, 1818576901, 1461743468, 1684828783,\r\n -1017312735\r\n};","language":"c lazy-code"}},{"type":"code","data":{"code":"$ gcc -Wall final_array.c -o sixth\r\nfinal_array.c:1:11: warning: ‘main’ is usually a function [-Wmain]\r\n const int main[] = {\r\n ^\r\n$ ./sixth \r\nHello World!","language":"bash lazy-code"}},{"type":"paragraph","data":{"text":"Всё это время мы игнорируем предупреждение о том, что main не является функцией."}},{"type":"paragraph","data":{"text":"Подозреваю, что все, что сделает комиссия, когда мой коллега покажет такой код на экзамене, — отругает за плохой стиль."}},{"type":"paragraph","data":{"text":"Перевод статьи «Main is usually a function. So then when is it not?»"}}]}

Ошибка в настройках сайта