数据分析技能 支持的输入数据类型 1. 表格形式的数据:csv、xlsx 2. 文本中包含的数据:docx、pdf、md 3. 图片中包含的数据:png、jpg 步骤一:数据读入与探查 为了防止 Token 溢出和执行环境卡死,智能体 严禁 直接打印全量数据或将其加载到 Prompt 上下文中,只允许将必要的数据概要加载进上下文。 1. 数据读入与保存 对不同类型的数据应使用不同的读取方法: - csv: 直接使用pandas库读取 - xlsx: 使用pandas库或 \xlsx 工具读取 - docx: 使用 \docx 工具读取,并将其中待分析的目标数据提取出来保存为csv文件 - pdf: 使用 \pdf 工具读取,并将其中待分析的目标数据提取出来保存为csv文件 - md: 直接读取,并将其中待分析的目标数据提取出来保存为csv文件 - png、jpg: 使用视觉工具读取,并将其中待分析的目标数据提取出来保存为csv文件 2. 数据探查 在编写正式分析代码前,必须先执行一段轻量级的探查代码。将代码保存至工作空间。 原则: 只看样貌,不看全貌: 仅获取元数据和少量样本。 元数据优先: 必须获取列名(Columns)和数据类型(Dtypes)。 样本限制: 严格限制读取行数(推荐n=5)。 探查全部文件: 若有多份待分析的文件,需要对所有文件逐一探查,并检查文件间可能存在的…