{"blocks":[{"type":"paragraph","data":{"text":"Существуют отличные отладчики вроде GDB и LLDB. И хотя их можно настраивать с помощью скриптов, порой хочется иметь больше контроля над работой отладчика. В этой серии статей мы попробуем создать свой отладчик с помощью библиотек python-ptrace, pyelftools и distorm3."}},{"type":"paragraph","data":{"text":"Исходники доступны на GitHub. Всё написано и скомпилировано на Linux x86_64."}},{"type":"paragraph","data":{"text":"Прим.перев. В этой статье используется устаревшая версия Python 2."}},{"type":"header2","data":{"level":2,"text":"Подготовка"}},{"type":"paragraph","data":{"text":"Чтобы избежать проблем с правами доступа, мы будем запускать отлаживаемый процесс как дочерний:"}},{"type":"code","data":{"code":"import ptrace.debugger\r\nshell_command = [\"./a.out\"]\r\nchild_proc = subprocess.Popen(shell_command)\r\npid = child_proc.pid\r\ndebugger = ptrace.debugger.PtraceDebugger()\r\nprocess = debugger.addProcess(pid, False)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Здесь используется системный вызов ptrace для присоединения к дочернему процессу и его остановки. Теперь process содержит много удобных методов. Идея была заимствована из примера в документации python-ptrace."}},{"type":"header2","data":{"level":2,"text":"Считываем значения"}},{"type":"paragraph","data":{"text":"Начнём с простого. Получаем регистры:"}},{"type":"code","data":{"code":">>> regs = process.getregs()\r\n>>> registers = {k: getattr(regs, k) for k in dir(regs) if not k.startswith('_')}\r\n>>> registers\r\n{'cs': 51L,\r\n 'ds': 0L,\r\n 'eflags': 519L,\r\n [...]\r\n 'rax': 0L,\r\n 'rbp': 140733962602848L,\r\n 'rbx': 3L,\r\n 'rcx': 139901135742274L,\r\n 'rdi': 3L,\r\n 'rdx': 140733962602656L,\r\n 'rip': 139901135742280L,\r\n 'rsi': 140733962602656L,\r\n 'rsp': 140733962602520L,\r\n 'ss': 43L}","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Считываем байты из памяти:"}},{"type":"code","data":{"code":">>> import binascii\r\n>>> binascii.hexlify(process.readBytes(registers['rsp'], 8))\r\n'70987e453d7f0000'","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Ассемблерный REPL"}},{"type":"paragraph","data":{"text":"Теперь нам нужно научиться запускать ассемблерные инструкции по одной за раз. Давайте соберём нужные составляющие."}},{"type":"paragraph","data":{"text":"Одиночный шаг:"}},{"type":"code","data":{"code":">>> process.getreg('rip')\r\n140187902313503L\r\n>>> process.singleStep()\r\n>>> process.getreg('rip')\r\n140187902313507L","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"rip — это указатель на инструкцию. Префикс r обозначает длину в 64 бита. Как видите, он действительно смещается вперёд, когда мы делаем шаг."}},{"id":"75a663f7-49f1-4add-abd5-02cb3c2a6783","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Продолжаем до тех пор, пока дочерний процесс не получит сигнал (в нашем случае SIGTRAP). Это может привести к ошибке, если процесс завершится или будет получен другой сигнал:"}},{"type":"code","data":{"code":">>> import signal\r\n>>> process.waitSignals(signal.SIGTRAP)\r\nProcessSignal('Signal SIGTRAP',)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"process.singleStep() неблокирующий, поэтому для удобства мы добавим блокирующую версию:"}},{"type":"code","data":{"code":"def step():\r\n process.singleStep()\r\n process.waitSignals(signal.SIGTRAP)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Так делать не стоит, но пусть process пока побудет глобальной переменной."}},{"type":"paragraph","data":{"text":"Пишем в память. В ассемблере выполнение ассемблерной инструкции int3 приводит к тому, что процессу отправляется сигнал SIGTRAP. Её можно записать в виде одного байта 0xCC:"}},{"type":"code","data":{"code":">>> process.writeBytes(process.getreg('rip'), chr(0xCC))\r\n>>> process.cont()\r\n>>> process.waitSignals(signal.SIGTRAP)\r\nProcessSignal('Signal SIGTRAP',)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Также мы можем сравнить регистр rip до и после, чтобы проверить, что значение увеличилось ровно на 1."}},{"type":"paragraph","data":{"text":"Устанавливаем регистр:"}},{"type":"code","data":{"code":">>> process.setreg('rax', 0)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь у нас есть всё, что нужно, для запуска одной инструкции, переданной в виде байтов:"}},{"type":"code","data":{"code":"def run_asm(instr):\r\n old_rip = process.getreg('rip')\r\n old_values = process.readBytes(old_rip, len(instr))\r\n process.writeBytes(old_rip, instr)\r\n step()\r\n # Отматываем rip, если инструкция его не изменила.\r\n if process.getreg('rip') == old_rip + len(instr):\r\n process.setreg('rip', old_rip)\r\n process.writeBytes(old_rip, old_values)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Здесь мы перезаписываем байты перед указателем на инструкцию с помощью instr, делаем шаг и возвращаем перезаписанные байты и позицию указателя инструкции. Последнюю часть делаем, только если указатель на инструкцию не изменялся (как в случае с jump или call)."}},{"type":"paragraph","data":{"text":"При помощи таблицы преобразования ассемблерных инструкций в байты мы можем поместить это в цикл и сделать REPL."}},{"type":"header2","data":{"level":2,"text":"Вызов функции, первая попытка"}},{"type":"paragraph","data":{"text":"Что делать, если мы хотим вызвать ассемблерную функцию и приостановить выполнение после возвращения из неё?"}},{"id":"f6106cd8-2152-4ad5-9d0b-5aa5427190cd","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"Напишем для этого func_call(func_addr) (запустите её пошагово, чтобы посмотреть на промежуточные состояния). Сначала сохраним часть текущего состояния:"}},{"type":"code","data":{"code":"def func_call(func_addr):\r\n old_rip = process.getreg('rip')\r\n old_regs = process.getregs()\r\n old_values = process.readBytes(old_rip, 6)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Мы могли бы просто использовать run_asm с инструкцией call. Это байт 0xE8, за которым следуют 5 байт little endian, описывающих разницу между текущим и целевым значениями rip."}},{"type":"paragraph","data":{"text":"Чтобы приостановить дочерний процесс после вызова, мы можем записать int3 (байт 0xCC) после инструкций вызова:"}},{"type":"code","data":{"code":"diff = func_addr - (old_rip + 5)\r\n new_values = chr(0xE8) + struct.pack('i', diff) + chr(0xCC)\r\n process.writeBytes(old_rip, new_values)\r\n step()","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Мы можем перепроверить, что вызов был совершён:"}},{"type":"code","data":{"code":"new_rip = process.getreg('rip')\r\n assert(new_rip == func_addr)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Теперь пусть процесс работает, пока не будет получен сигнал SIGTRAP (желательно тот, что мы установили):"}},{"type":"code","data":{"code":"process.cont()\r\n process.waitSignals(signal.SIGTRAP)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"А теперь восстановим перезаписанные байты и значения регистра. В некоторых ситуациях они нам могут пригодиться:"}},{"type":"code","data":{"code":"process.writeBytes(old_rip, old_values)\r\n process.setregs(old_regs)","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Получаем адрес функции"}},{"type":"paragraph","data":{"text":"Давайте попробуем вызвать скомпилированные Си-функции, но пока без аргументов и возвращаемого значения. Для этого нам всего лишь нужно найти адрес функции. Мы можем его получить из заголовка с помощью pyelftools:"}},{"type":"code","data":{"code":"from elftools.elf.elffile import ELFFile\r\nfrom elftools.elf.sections import SymbolTableSection\r\n\r\ndef variables(filename=\"a.out\"):\r\n f = ELFFile(open(filename))\r\n symb_sections = [section for section in f.iter_sections()\r\n if isinstance(section, SymbolTableSection)]\r\n variables = {symb.name: symb['st_value'] for section in symb_sections\r\n for symb in section.iter_symbols()}\r\n return variables","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"А теперь сам вызов:"}},{"type":"code","data":{"code":">>> c_variables = variables(\"a.out\")\r\n>>> func_call(c_variables['some_func_name'])","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Вообще, этот метод получает не только функции, но и, наверное, все статические переменные. Для библиотек общего пользования мы можем вызвать variables с полным путём к .so-файлу соответствующей библиотеки."}},{"type":"paragraph","data":{"text":"Тем не менее всегда это работать не будет, поскольку фактический регион используемой памяти не всегда начинается с 0 и нам нужно добавлять начало этого региона в качестве смещения."}},{"type":"paragraph","data":{"text":"Пока что мы можем это сделать следующим образом. С регионами памяти и /proc/pid/maps разберёмся чуть позже:"}},{"type":"code","data":{"code":">>> line1 = open(\"/proc/%s/maps\" % pid).readline()\r\n>>> _start = int(line1.split(\"-\")[0], 16)\r\n>>> start = _start if _start != 0x400000 else 0\r\n>>> func_call(start + c_variables['some_func_name'])","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Ставим точки останова"}},{"type":"paragraph","data":{"text":"Теперь у нас есть адреса функций и мы можем поставить точку останова, просто написав int3 (байт 0xCC) в начале функции:"}},{"type":"code","data":{"code":"def set_breakpoint(addr):\r\n old = process.readBytes(addr, 1)\r\n process.writeBytes(addr, chr(0xCC))\r\n return old","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"И восстановить перезаписанное значение после прохождения точки останова:"}},{"type":"code","data":{"code":"def restore_breakpoint(old):\r\n rip = process.getreg('rip')\r\n process.setreg('rip', rip - 1)\r\n addr = rip - 1\r\n process.writeBytes(addr, old)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Эти функции можно использовать следующим образом:"}},{"type":"code","data":{"code":">>> old = set_breakpoint(start + variables['my_func'])\r\n>>> process.waitSignals(signal.SIGTRAP)\r\n>>> restore_breakpoint(old)","language":"python lazy-code"}},{"type":"header2","data":{"level":2,"text":"Вызов функции, вторая попытка"}},{"type":"paragraph","data":{"text":"В общем и целом первый подход работает на удивление хорошо, хотя есть некоторые проблемы."}},{"type":"paragraph","data":{"text":"Слишком большое расстояние вызова. call (0xE8) принимает в качестве аргумента только 5 байт, однако для описания адреса (diff) может потребоваться 8 байт. Мы можем либо подождать, пока не окажемся в пределах функции, которую хотим вызвать (это работает только в том случае, если нам не нужно вызывать функцию сразу же), либо поместить целевой адрес в регистр, например, rax, и воспользоваться инструкцией call rax (байты FF D0)."}},{"type":"paragraph","data":{"text":"Перезаписанные байты. Так как мы перезаписываем 7 байт (6 для call, один для int) и восстанавливаем их только после возвращения из функции, то в случае попытки их чтения из другого места можно получить неожиданные значения. Например, если мы совершили вызов внутри тела функции и выполнение программы снова доходит до old_rip."}},{"id":"3b9a84dc-5d59-4514-9361-197d619b364a","type":"banner-blank","data":{}},{"type":"paragraph","data":{"text":"В теории мы могли бы восстановить 6 из 7 байт после одного шага, оставив только 0xCC. Однако это не решает проблему, а только уменьшает её размер."}},{"type":"paragraph","data":{"text":"Ещё мы могли бы вручную создать стековый кадр."}},{"type":"paragraph","data":{"text":"Вместо этого мы зарезервируем новый участок памяти и запишем наши инструкции туда."}},{"type":"header2","data":{"level":2,"text":"Выделяем память"}},{"type":"paragraph","data":{"text":"Мы можем использовать системный вызов mmap() (номер вызова 9) для резервирования памяти. Ему требуются некоторые магические константы, часть которых можно найти в ptrace.syscall:"}},{"type":"code","data":{"code":"import ptrace.syscall\r\nMMAP_PROT_BITMASK = {k: v for v, k in ptrace.syscall.posix_arg.MMAP_PROT_BITMASK}\r\nMMAP_PROT_BITMASK['PROT_ALL'] = MMAP_PROT_BITMASK['PROT_READ']\\\r\n | MMAP_PROT_BITMASK['PROT_WRITE']\\\r\n | MMAP_PROT_BITMASK['PROT_EXEC']\r\nMAP_PRIVATE = 0x02\r\nMAP_ANONYMOUS = 0x20\r\nsyscalls = {k: v for v, k in ptrace.syscall.linux_syscall64.SYSCALL_NAMES.items()}","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"С помощью следующей функции мы можем вызвать mmap. Здесь syscall представлен байтами 0F 05:"}},{"type":"code","data":{"code":"def reserve_memory(size):\r\n old_regs = process.getregs()\r\n regs = {'rax': syscalls['mmap'], 'rdi': 0, 'rsi': size,\r\n 'rdx': MMAP_PROT_BITMASK['PROT_ALL'],\r\n 'r10': MAP_PRIVATE | MAP_ANONYMOUS,\r\n 'r8': -1, 'r9': 0}\r\n for reg, value in regs.items():\r\n process.setreg(reg, value)\r\n run_asm(chr(0x0f) + chr(0x05))\r\n result = process.getreg('rax')\r\n process.setregs(old_regs)\r\n return result","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Данная стратегия была позаимствована из этого примера. Для справки, вот константы:"}},{"type":"code","data":{"code":"syscalls['mmap'] = 9\r\nMMAP_PROT_BITMASK['PROT_ALL'] = 7\r\nMAP_PRIVATE | MAP_ANONYMOUS = 34","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Адрес зарезервированной памяти находится в rax после вызова, поэтому мы его извлекаем и возвращаем."}},{"type":"paragraph","data":{"text":"Это позволяет нам изменить вызов функции, сделав его немного безопаснее:"}},{"type":"code","data":{"code":"def safe_func_call(func_addr):\r\n old_rip = process.getreg('rip')\r\n old_regs = process.getregs()\r\n tmp_addr = reserve_memory(6)\r\n process.setreg('rip', tmp_addr)\r\n # call rax\r\n process.setreg('rax', func_addr)\r\n new_values = chr(0xff) + chr(0xd0) + chr(0xcc)\r\n process.writeBytes(tmp_addr, new_values)\r\n step()\r\n\r\n new_rip = process.getreg('rip')\r\n assert(new_rip == func_addr)\r\n process.cont()\r\n process.waitSignals(signal.SIGTRAP)\r\n process.setregs(old_regs)","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Тем не менее, в этой функции по-прежнему могут возникать ошибки сегментации."}},{"type":"header2","data":{"level":2,"text":"Получаем следующие инструкции"}},{"type":"paragraph","data":{"text":"Добавим в наш отладчик функцию, которая говорит нам, какие следующие инструкции. Для этого нам понадобится дизассемблер distorm3, который можно установить с помощью pip."}},{"type":"paragraph","data":{"text":"Воспользуемся методом PtraceProcess.disassemble для получения итератора по следующим десяти инструкциям:"}},{"type":"code","data":{"code":"def look(addr=None):\r\n print(\"ip:\", hex(process.getreg('rip')))\r\n for i, instr in enumerate(process.disassemble(start=addr)):\r\n hexa = instr.hexa\r\n hexa = ' '.join(hexa[i:i+2] for i in range(0, len(hexa), 2))\r\n print(str(i).ljust(4), hexa.ljust(24), instr.text.lower())","language":"python lazy-code"}},{"type":"paragraph","data":{"text":"Запуск этой функции даст примерно следующий результат:"}},{"type":"code","data":{"code":">>> look()\r\nip: 0x555c9860810dL\r\n0 48 89 c2 mov rdx, rax\r\n1 48 8d 05 79 0f 20 00 lea rax, [rip+0x200f79]\r\n2 48 89 10 mov [rax], rdx\r\n3 48 8d 05 6f 0f 20 00 lea rax, [rip+0x200f6f]\r\n4 48 8b 00 mov rax, [rax]\r\n5 48 89 c6 mov rsi, rax\r\n6 48 8d 3d af 02 00 00 lea rdi, [rip+0x2af]\r\n7 b8 00 00 00 00 mov eax, 0x0\r\n8 e8 d8 fa ff ff call 0x555c98607c10\r\n9 48 8d 05 51 0f 20 00 lea rax, [rip+0x200f51]","language":"clike lazy-code"}},{"type":"paragraph","data":{"text":"Метод PtraceProcess.dumpCode работает похожим образом, но с другим форматированием."}},{"type":"header2","data":{"level":2,"text":"Итог"}},{"type":"paragraph","data":{"text":"На этом пока всё. В следующей статье мы разберёмся с чтением/записью Си-переменных, запуском одиночных Си-команд, библиотеками общего пользования, динамической загрузкой и картами памяти (/proc/pid/maps)."}}]}

Ошибка в настройках сайта