Skip to content

网页采集与脱敏

本页说明

本页说明 Ghast AI 什么时候会读取当前页面信息、会读取到什么范围,以及哪些内容会在进入系统前先做处理。

对普通用户来说,最重要的结论是:Ghast AI 当前不是对所有网页默认采集,也不是把页面上所有内容都原样带入对话。

什么时候会读取当前页面

当前页面相关能力只在受支持的站点范围内工作,主要覆盖 Web3 和少量相关社交场景。

这意味着:

  • 不是每个网站都会自动成为上下文来源
  • 页面理解能力有明确范围
  • 如果当前页面不在支持范围内,Ghast AI 不会按同样方式读取页面信息

读取页面时,通常会带入什么

当页面属于当前支持范围时,Ghast AI 主要会结合这些信息来理解页面:

  • 当前页面地址
  • 页面标题
  • 页面所属类型
  • 与当前页面相关的结构化关键信息

对用户来说,可以把它理解成:Ghast AI 读取的是“理解当前页面所需的信息”,而不是把整个网页当成无限制输入源。

当前会先做什么处理

在页面地址进入系统前,当前会先处理一部分常见的敏感参数,例如登录令牌、访问令牌、会话标识、密码类参数和私钥类参数。

这项处理的意义是:

  • 避免把明显属于链接敏感信息的内容原样带入系统
  • 让页面上下文更偏向“可理解页面内容”,而不是“保留原始链接中的敏感字段”

这条边界对用户意味着什么

这条边界当前主要带来三点好处:

  • 页面采集范围是有限的,不是全网页默认开放
  • 页面地址中的一部分高敏感参数会先被处理
  • 页面相关能力更容易被用户理解和预期

这条边界不能替你完成什么

你仍然需要知道下面这些限制:

  • 这不等于页面中的所有敏感信息都会被自动删除
  • 这不等于任何站点都拥有同样的页面理解能力
  • 这不等于你可以忽略自己正在打开的页面内容本身

换句话说,这条边界解决的是“默认收口”,不是“自动替代用户判断”。

普通用户的使用建议

如果你希望保持当前默认边界,最稳妥的方式是:

  1. 只在明确需要时依赖页面上下文能力。
  2. 对页面中本来就属于敏感内容的信息保持基本判断。
  3. 不把“已做脱敏”理解成“页面里所有内容都已经无风险”。

Ghast AI 当前只在受支持站点范围内读取页面上下文,并会先处理一部分常见的链接敏感参数。因此,页面相关能力属于“有限范围、先收口后使用”的设计,而不是默认全网页开放采集。

相关页面