强化学习 强化学习(Reinforcement Learning, RL)是一种机器学习方法。它通过智能体(agent)在环境(environment)中采取动作(action),接收环境反馈的奖励(reward),并根据长期累计回报(return)来学习最优策略(policy)。 核心要素: 状态(state, s):环境当前的描述。 动作(action, a):智能体可选择的行为。 奖励(reward, r):环境对动作的即时反馈。 策略(policy, π):从状态到动作的映射。
硬盘和文件系统 硬盘访问逻辑与基本概念 下面概括机械硬盘/SSD在操作系统视角下的寻址与I/O基本面,便于后续讨论文件系统、分区和性能优化。 快速要点 统一寻址:现代系统用 LBA(Logical Block Addressing)按块编号访问,不再用CHS。 基本单元:逻辑扇区通常为 512B(或4K);物理扇区常见为 4K(Advanced Format)。 对齐很关键:分区与文件系统数据结构应按 4K(甚至1MB)对齐,避免读-改-写(RMW)罚时。 顺序优于随机:磁盘顺序访问远快于随机;队列与调度可缓解随机I/O开销。