以下是关于表格数据分析的相关内容:
大模型招投标文件关键数据提取方案
预处理模块设计:
去除噪音信息:过滤掉页眉、页脚、版权声明等无关紧要的信息。
规范化文本:处理特殊符号、空白字符、异常换行等,确保文本格式整洁。
日期格式统一:通过正则表达式或日期识别工具将多种日期表示方式统一转换为标准的 ISO 格式(如“YYYYMMDD”)。
货币与金额格式化:统一货币单位和金额数字的格式,例如将“壹仟元”转换为“1000 CNY”,或将“$1,000”转换为“1000 USD”。
特殊符号处理:对招投标文件中的特殊符号进行规范化处理。
表格数据处理:使用表格解析工具(如 pdfplumber 或 pythondocx)提取表格结构和数据,并转化为 CSV 或 JSON 格式方便后续处理。
ChatGPT 助力数据分析:实际案例与技巧
流程:
1. 第一个用户提示:限定 SELECT SQL,要求不要用 SELECT查询全部列,仅回复一条 SELECT SQL 语句,至少查询两列(数据项、数据值),且不能直接查询长类型字段,可用 count/substring 等函数查询。
2. 系统提示是表结构信息,如有难以理解的字段可告知 GPT 字段意义,多个表可分开描述。
3. 校验 GPT 生成的 SQL,不通过直接返回提示“抱歉,不支持此类请求”,通过再执行 SQL 查询数据。
4. 数据分析的用户提示:限定返回的 JSON 格式(conclusion、keyMap、title)。keyMap 用于数据 key 的映射,获取结果数据对应的维度、数据项、数据值的 key 值,以映射数据渲染图表。由于支持多维数据,单维度数据和多维度数据的 prompt 需分开定义,根据结果数据 tableData 的维度,用条件运算符选择对应的 prompt 传递给 GPT。
5. 结果数据 tableData 跟随接口返回到前端,已通过 SQL 查询的数据,不能让 GPT 再次生成,否则耗时。
58 数据分析 161 万
示例表格数据:
|名称|二级分类|三级分类|网址|2 月|3 月|4 月|5 月|6 月|7 月|8 月|9 月|10 月|11 月|迷你图|11/5 月1|
||||||||||||||||||
|1|帆软数据|数据分析||https://www.fanruan.com/||||65|64|65|73|62|63|56||O2/I21|
|2|RATH|数据分析||https://kanaries.net/|5.4|14|17|32|44|62|54|11|20|33||O3/I31|
|3|rows.com|数据分析||https://rows.com/visionfd1f404d||||8|92|118|80|62|34|28||O4/I41|
|4|亚信科技数智产品|数据分析||https://www.asiainfo.com/zh_cn/digital_intelligence_product_system.html||||43|30|58|47|41|29|23||O5/I51|
|5|神策数据|数据分析||https://www.sensorsdata.cn/||||23|18|21|22|16|17|21||O6/I61|
2025-01-08