草庐IT

Linux:在我的进程中管理虚拟内存映射以进行快速仿真

coder 2023-06-20 原文

最近我发现很多模拟器都很慢,因为它们不仅要模拟 CPU,还要模拟被模拟设备的内存。当设备具有内存映射 I/O、虚拟内存或只是未使用的地址空间时,每个内存访问都必须在软件中模拟。

我觉得如果操作系统通过虚拟内存为我们做这件事可能会快很多。为简单起见,我将使用 Game Boy 仿真作为示例,但显然这种方法更适用于更新、功能更强大的机器。

Game Boy内存映射大致是:

  • 0x0000 - 0x7FFF:映射到盒式 ROM
    • 大多数墨盒具有固定的 0x0000 - 0x3FFF 和 0x4000 - 0x7FFF 可通过写入 0x2000 进行库切换
  • 0x8000 - 0x9FFF:视频 RAM(仅在当前未呈现时可访问)
  • 0xA000 - 0xBFFF:映射到墨盒(通常是电池供电的 RAM)
  • 0xC000 - 0xDFFF:内部 RAM(0xD000 - 0xDFFF 在 GB 颜色上切换)
  • 0xE000 - 0xFDFF: 内部 RAM 的镜像
  • 0xFE00 - 0xFE9F:对象属性内存(sprite RAM)
  • 0xFEA0 - 0xFEFF:未映射(开放总线或其他,不确定)
  • 0xFF00 - 0xFF7F:内存映射 I/O(音响系统、视频控制等)
  • 0xFE80 - 0xFFFF:内部 RAM

所以传统的模拟器必须像这样翻译每个内存访问:

if(addr < 0x4000) return rom[addr];
else if(addr < 0x8000) return rom[(addr - 0x4000) + (0x4000 * cur_rom_bank)];
else if(addr < 0xA000) {
    if(vram_accessible) return vram[addr - 0x8000];
    else return 0xFF;
}
else if(addr < 0xC000) return saveram[addr - 0xA000];
else if(addr < 0xE000) return ram[addr - 0xC000];
else if(addr < 0xFE00) return ram[addr - 0xE000];
else if(addr < 0xFE9F) return oam[addr - 0xFE00];
else if(addr < 0xFF00) return 0xFF; //or whatever should be here
else if(addr < 0xFF80) return handle_io_read(addr);
else return hram[addr - 0xFF80];

显然,这可以通过使用开关或表进行优化,但仍然需要为每次内存访问运行大量代码。我们可以通过将一些页面映射到我们进程的内存映射中的那些地址来潜在地提高仿真速度:

  • 0x0000 - 0x3FFF:R--(没有 Exec 标志,因为 native CPU 不执行它)
  • 0x4000 - 0x7FFF: R--
  • 0x8000 - 0x9FFF: ---
  • 0xA000 - 0xBFFF:---
  • 0xC000 - 0xDFFF: RW-
  • 0xE000 - 0xFDFF:RW-(并映射到与 0xC000 - 0xDFFF 相同的物理页面)
  • 0xFE00 - 0xFE9F:---
  • 0xFEA0 - 0xFEFF: ---
  • 0xFF00 - 0xFF7F: ---
  • 0xFF80 - 0xFFFF: RW-

然后处理我们在访问这些页面时收到的 SIGSEGV(或将生成的任何信号)。所以从 ROM 读取或写入 RAM 可以直接执行,而写入 ROM 将引发我们可以处理的异常。我们可以将 VRAM (0x8000 - 0x9FFF) 的权限更改为 RW- 当它应该可以访问时和 --- 当它不应该访问时。理论上它可能会快得多,因为它不需要模拟器手动映射软件中的每个内存访问。

我知道我可以使用 mmap() 将页面映射到具有各种权限的固定地址。我不知道的是:

  • 映射是否可以重叠,具有不同的权限?
  • 我可以像这样将页面映射到任意地址,而不考虑系统的页面大小吗?我可以映射到地址 0 吗?
  • 如何更改映射指向的内存? (例如,当 ROM bank 改变时,我们可以只切换映射到 0x4000 - 0x7FFF 的内存,但我该怎么做呢?)
  • 在仿真系统具有 32 位或 64 位 CPU 的真实情况下,我可以映射整个前 4GB 空间,或者可能映射整个内存空间吗?我如何避免与已映射的内容(例如库、我的堆栈、内核)发生冲突?
  • 这真的会更快吗?还是抛出和捕获 SIGSEGV 会产生比传统方式更多的开销?
  • 如果无法在用户空间执行此操作,Linux 是否可以提供一种方法来“接管”内核并在那里执行此操作?所以我至少可以创建一个“模拟器操作系统”,它可以裸机运行,同时仍然有一些 Linux 内核设施(例如视频和文件系统驱动程序)可用?

最佳答案

我预计生成 SIGSEGV、捕获它、处理它并恢复,会比原始硬件有更多的性能开销,因此安排它仅在实际存在可能很慢的错误时发生。

这是一种很好的内存保护/数组边界检查技术,当违规很少见时,如果它们很慢也没关系。稍微加快常见情况是一种胜利,即使它使异常情况慢得多,当正常模拟代码中没有发生异常情况时也是一种胜利。

我听说 Javascript 模拟器这样做是为了获得更便宜的数组边界检查:分配一个数组,使其在页面顶部结束,下一页未映射。


对此持保留态度:我没有在我编写的代码中使用过任何这些。我只是听说过它,并且认为我了解它的工作原理和一些含义。

希望这能让您开始查看将告诉您实际可以做什么的文档。

更新页表相当缓慢。尝试找到一个平衡点,您可以利用用户空间内存保护来进行某些检查,但在模拟代码执行的“常见情况”期间,您不会不断地从内存空间映射/取消映射页面。预测分支运行得非常快,尤其是。如果预测他们不会被带走。

我看过 Linux 内核的讨论/注释,表明在单个页面的 memcpy 上玩弄 mmap 是不值得的。对于更大的内存块,或更少地检查重复 访问,好处将超过设置开销。


您需要使用 mprotect(2) 更改页面(范围)的权限。不,映射不能重叠。请参阅 mmap(2) 中的 MAP_FIXED 选项:

If the memory region specified by addr and len overlaps pages of any existing mapping(s), then the overlapped part of the existing mapping(s) will be discarded.

IDK 如果您在访问模拟内存时可以使用 x86 段寄存器做任何有用的事情,则将访客地址 0 映射到进程虚拟地址空间中的某个其他地址。您可以映射虚拟地址 0,但默认情况下 Linux 禁用它,因此 NULL 指针取消引用不会静默工作!

您的软件的用户将不得不使用 sysctl(与 WINE 相同)来启用它:

# Ubuntu's /etc/sysctl.d/10-zeropage.conf
# Protect the zero page of memory from userspace mmap to prevent kernel
# NULL-dereference attacks against potential future kernel security
# vulnerabilities.  (Added in kernel 2.6.23.)
#
# While this default is built into the Ubuntu kernel, there is no way to
# restore the kernel default if the value is changed during runtime; for
# example via package removal (e.g. wine, dosemu).  Therefore, this value
# is reset to the secure default each time the sysctl values are loaded.
vm.mmap_min_addr = 65536

就像我说的,您可以在所有加载/存储到访客(模拟机)内存时使用段寄存器覆盖,以将其重新映射到更合理的页面。或者可能只使用 64kiB 的常量偏移量(或更多,可能将其放在仿真软件的文本/数据/bss(堆)之上。或者使用指向的指针的非常量偏移量mmapped guest-memory 区域的基础,所以一切都与全局变量有关。With gcc, this might be a good candidate for requesting that gcc keep that global in a register across all your functions. IDK,你必须看看这是否有助于性能。恒定的偏移量最终会使访问 guest 内存的每条指令都需要一个寻址模式下的32b位移域,而不是0或8b。

段寄存器,如果它按照我认为的方式工作(作为常量偏移量,您可以使用段覆盖前缀而不是 32b 位移修饰符来应用)将很难让编译器生成,AFAIK .如果它只是加载/存储,那将是一回事:您可以使用内联 asm 包装器来加载和存储 insn。但对于高效的 x86 代码,各种 ALU 指令都应使用内存操作数,以通过微融合减少前端瓶颈。

你可以定义一个全局的 char *const guest_mem = (void*)0x2000000; 或其他东西,然后使用 mmapMAP_FIXED 在那里强制映射内存?然后 guest 内存访问可以编译为更高效的单寄存器寻址模式。

关于Linux:在我的进程中管理虚拟内存映射以进行快速仿真,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34521811/

有关Linux:在我的进程中管理虚拟内存映射以进行快速仿真的更多相关文章

  1. ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2

    作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代

  2. ruby - i18n Assets 管理/翻译 UI - 2

    我正在使用i18n从头开始​​构建一个多语言网络应用程序,虽然我自己可以处理一大堆yml文件,但我说的语言(非常)有限,最终我想寻求外部帮助帮助。我想知道这里是否有人在使用UI插件/gem(与django上的django-rosetta不同)来处理多个翻译器,其中一些翻译器不愿意或无法处理存储库中的100多个文件,处理语言数据。谢谢&问候,安德拉斯(如果您已经在ruby​​onrails-talk上遇到了这个问题,我们深表歉意) 最佳答案 有一个rails3branchofthetolkgem在github上。您可以通过在Gemfi

  3. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  4. ruby - 通过 ruby​​ 进程共享变量 - 2

    我正在编写一个gem,我必须在其中fork两个启动两个webrick服务器的进程。我想通过基类的类方法启动这个服务器,因为应该只有这两个服务器在运行,而不是多个。在运行时,我想调用这两个服务器上的一些方法来更改变量。我的问题是,我无法通过基类的类方法访问fork的实例变量。此外,我不能在我的基类中使用线程,因为在幕后我正在使用另一个不是线程安全的库。所以我必须将每个服务器派生到它自己的进程。我用类变量试过了,比如@@server。但是当我试图通过基类访问这个变量时,它是nil。我读到在Ruby中不可能在分支之间共享类变量,对吗?那么,还有其他解决办法吗?我考虑过使用单例,但我不确定这是

  5. ruby-on-rails - Ruby 中的内存模型 - 2

    ruby如何管理内存。例如:如果我们在执行过程中采用C程序,则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序

  6. ruby-on-rails - 获取 inf-ruby 以使用 ruby​​ 版本管理器 (rvm) - 2

    我安装了ruby​​版本管理器,并将RVM安装的ruby​​实现设置为默认值,这样'哪个ruby'显示'~/.rvm/ruby-1.8.6-p383/bin/ruby'但是当我在emacs中打开inf-ruby缓冲区时,它使用安装在/usr/bin中的ruby​​。有没有办法让emacs像shell一样尊重ruby​​的路径?谢谢! 最佳答案 我创建了一个emacs扩展来将rvm集成到emacs中。如果您有兴趣,可以在这里获取:http://github.com/senny/rvm.el

  7. ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2

    是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式? 最佳答案 您可以像这样为日期选择器提供额外的选项,而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义,我们在StackOverflow上找到一个类似的问题: https://s

  8. 在VMware16虚拟机安装Ubuntu详细教程 - 2

    在VMware16.2.4安装Ubuntu一、安装VMware1.打开VMwareWorkstationPro官网,点击即可进入。2.进入后向下滑动找到Workstation16ProforWindows,点击立即下载。3.下载完成,文件大小615MB,如下图:4.鼠标右击,以管理员身份运行。5.点击下一步6.勾选条款,点击下一步7.先勾选,再点击下一步8.去掉勾选,点击下一步9.点击下一步10.点击安装11.点击许可证12.在百度上搜索VM16许可证,复制填入,然后点击输入即可,亲测有效。13.点击完成14.重启系统,点击是15.双击VMwareWorkstationPro图标,进入虚拟机主

  9. kvm虚拟机安装centos7基于ubuntu20.04系统 - 2

    需求:要创建虚拟机,就需要给他提供一个虚拟的磁盘,我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式:qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令,基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机,另外在创建虚拟机之前,提前打开vnc客户端,在创建虚拟机的时候,通过vnc

  10. ruby - 无法在 Ruby 中将 ffmpeg 作为子进程运行 - 2

    我正在尝试使用以下代码通过将ffmpeg实用程序作为子进程运行并获取其输出并解析它来确定视频分辨率:IO.popen'ffmpeg-i'+path_to_filedo|ffmpegIO|#myparsegoeshereend...但是ffmpeg输出仍然连接到标准输出并且ffmepgIO.readlines是空的。ffmpeg实用程序是否需要一些特殊处理?或者还有其他方法可以获得ffmpeg输出吗?我在WinXP和FedoraLinux下测试了这段代码-结果是一样的。 最佳答案 要跟进mouviciel的评论,您需要使用类似pope

随机推荐