常见问题

什么是 RunPod?

RunPod 是一个专注于人工智能和机器学习工作负载的云 GPU 平台。它提供了按需租用高性能 GPU 的能力,支持模型训练、推理以及开发环境。用户可以通过直观的 Web 界面或 API 快速启动带有预装深度学习框架的容器,无需长期合约或复杂的硬件配置。

RunPod 支持哪些 GPU 型号?

RunPod 提供了多种 NVIDIA GPU 选择,包括 A100、H100、RTX 4090、RTX 6000 Ada、L40S 以及 A40 等。具体可用型号会根据数据中心库存动态变化,用户可以在创建 Pod 时查看实时可用列表。大部分 GPU 都支持单卡或通过 InfiniBand 互联的多卡配置。

如何开始使用 RunPod?

首先在 RunPod 官网注册账户,完成邮箱验证后充值或使用初始免费额度。登录控制台后点击“Create Pod”,选择 GPU 型号、所需的存储空间(通常选择 50GB 或 100GB 的持久存储)。然后选择预构建的模板,例如 PyTorch、TensorFlow、Jupyter Notebook 或自定义 Docker 镜像。最后确认配置并启动,几分钟内即可通过 SSH 或 Jupyter 访问环境。

RunPod 的计费方式是什么?

RunPod 按秒计费,仅收取活跃 Pod 的运行时长费用。暂停或停止的 Pod 不计费,但持久存储会按小时收取少量费用。GPU 价格因型号和区域而异,例如 RTX 4090 每小时约 $0.3 美元,A100 约 $1.5 美元。用户还可以设置预算上限,防止意外超额。

我可以在 RunPod 上运行自定义 Docker 镜像吗?

可以。RunPod 支持完全自定义的 Docker 镜像,你只需要在创建 Pod 时填写镜像名称和标签。平台会自动拉取并运行。建议镜像基于 NVIDIA CUDA 基础镜像构建,并安装好所需的驱动和库。如果镜像较大,首次拉取可能需要几分钟。

RunPod 的持久存储是如何工作的?

每个 Pod 可以挂载一个持久存储卷,默认大小为 50GB,可以扩展至数 TB。数据会保留在存储卷上,即使 Pod 被暂停或重新创建也不会丢失。存储卷基于 SSD,读写性能良好。你可以通过 SCP 或云盘工具上传数据集和模型,Pod 内的路径通常为 /workspace。

如何确保 RunPod 环境的安全性?

RunPod 每个 Pod 运行在隔离的容器中,拥有独立的网络和文件系统。SSH 密钥认证是默认选项,密码登录可以关闭。平台还提供私有网络功能,允许 Pod 之间通过内网通信,避免公网暴露。此外,所有数据传输均经过加密,用户可以根据需求添加防火墙规则。

RunPod 支不支持断点续传和自动备份?

平台本身不内置自动备份功能,但你可以通过持久存储来保存中间检查点。如果 Pod 意外停止,只要存储卷未被删除,重新创建相同配置的 Pod 并挂载同一存储卷即可继续工作。建议定期使用 rsync 或云存储工具将重要数据备份到外部。

RunPod 适合运行大模型推理吗?

适合。RunPod 提供高内存和高显存的 GPU 选项,例如 A100 80GB 或 H100,足以加载 LLaMA-70B 或 Falcon-180B 等大型模型。你可以部署推理服务(如 vLLM、TGI),并通过 API 对外提供请求。平台还支持节点自动缩放,不过当前需要手动管理多个 Pod。

RunPod 的社区和技术支持怎么样?

RunPod 有活跃的 Discord 社区和文档网站。官方提供了详细的入门指南、API 文档以及常见故障排除步骤。对于付费用户,可以通过工单系统获得技术支持。社区里很多用户分享模板和优化技巧,响应速度较快。

RunPod 与 Colab 或 Paperspace 相比有什么优势?

RunPod 更专注于 GPU 租用的灵活性和性价比。相比 Colab Pro+,它没有时长限制且支持更高端的 GPU;相比 Paperspace,它的价格通常更低,尤其是在 RTX 4090 等消费级显卡上。此外,RunPod 的自定义镜像和持久存储方案让专业用户拥有完全的控制权。

我能否在 RunPod 上运行 Windows 或非深度学习任务?

RunPod 主要面向 Linux 环境(Ubuntu 22.04 / 20.04),不支持 Windows。除了深度学习,你还可以用它进行科学计算、渲染、密码破解等任何需要 GPU 的任务,前提是所用软件能运行在 Linux 容器中。部分用户将其用于 Blender 渲染或 CFD 仿真。

RunPod 的 API 可以用来做什么?

RunPod 提供了 REST API,允许用户通过代码创建、启动、停止和删除 Pod,以及查询 GPU 可用性。这对于自动化工作流非常有用,比如在训练任务完成后自动关闭 Pod 以节省成本。API 密钥在账户设置中生成,文档包含所有端点和示例。

如果 Pod 中间断连,我的工作会丢失吗?

如果只是 SSH 或 Jupyter 连接断开,Pod 内的程序仍然继续运行。重新连接后可以查看日志或恢复交互。如果 Pod 本身因故障重启,已保存到持久存储的数据不会丢失,但内存中的数据(例如未保存的变量)会丢失。建议在长时间训练中定期保存 checkpoint 到存储卷。

RunPod 是否有免费试用额度?

新用户注册后会获得少量免费额度(通常为 $5 或 $10 美元),可用于测试低端 GPU。额度有效期为 7 天,之后需要充值。此外,平台偶尔会推出赠送活动,可以关注官方公告。