Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

非结构化数据

Answer

非结构化数据是指缺乏预定义格式的数据,如文本、图像和音频等。为在人工智能和机器学习应用中利用这些数据,需使用嵌入技术将其转换为数字表示。嵌入就像给每个项目赋予独特的代码以捕捉其含义或本质,通常通过特殊神经网络实现,例如单词嵌入将单词转换为向量,使含义相似的单词在向量空间中更接近,从而让算法了解项目间的关系和相似性,将非数字数据转换成机器学习模型可处理的形式,以辨别数据中的模式和关系。

在金融行业中,非结构化数据主要涉及报告(年度报告、季度报告等公司财务报告)、公告(董事会公告、监事会公告、股东大会公告等)、上市资料(如招股说明书等公司上市相关文件)。 向量数据库处理的是称为向量的复杂非结构化数据,其存储过程为:若为文本,通过模型转换成向量对象后存入数据库,再进行使用。传统数据库以表格形式存储简单数据,而向量数据库使用独特方法搜索,如近似近邻(ANN)搜索,包括散列搜索和基于图的搜索等方法,且使用特定的相似性度量来寻找最接近的匹配。要理解向量数据库的工作原理及与传统关系数据库的不同,需先理解嵌入的概念。

Content generated by AI large model, please carefully verify (powered by aily)

References

大雨:简单易懂的向量数据库解析:你需要了解的一切

上图简单展示了向量数据库的存储过程,如果是文本,通过模型转换成向量对象,对象存入数据库中。再去使用它。传统数据库以表格形式存储单词和数字等简单数据。而向量数据库处理的是称为向量的复杂数据,并使用独特的方法进行搜索。常规数据库搜索精确匹配的数据,而向量数据库则使用特定的相似性度量来寻找最接近的匹配。向量数据库使用特殊的搜索技术,即近似近邻(ANN)搜索,其中包括散列搜索和基于图的搜索等方法。要真正理解向量数据库的工作原理,以及它与SQL等传统关系数据库的不同之处,我们必须首先理解嵌入的概念。文本、图像和音频等非结构化数据缺乏预定义格式,给传统数据库带来了挑战。为了在人工智能和机器学习应用中利用这些数据,需要使用嵌入技术将其转换为数字表示。嵌入就像给每个项目(无论是文字、图像还是其他东西)赋予一个独特的代码,以捕捉其含义或本质。这种代码可以帮助计算机以更高效、更有意义的方式理解和比较这些项目。把它想象成把一本复杂的书变成一个简短的摘要,但仍能抓住要点。这种嵌入过程通常是通过一种为完成任务而设计的特殊神经网络来实现的。例如,单词嵌入将单词转换为向量,使含义相似的单词在向量空间中更为接近。通过这种转换,算法可以了解项目之间的关系和相似性。从本质上讲,嵌入就像一座桥梁,将非数字数据转换成机器学习模型可以处理的形式,使它们能够更有效地辨别数据中的模式和关系。

金融行业 · 大模型挑战赛 |用大模型理解金融市场

非结构化数据主要涉及:报告:年度报告、季度报告等公司财务报告。公告:董事会公告、监事会公告、股东大会公告等。上市资料:如招股说明书等公司上市相关文件。

金融行业 · 大模型挑战赛 |用大模型理解金融市场

非结构化数据主要涉及:报告:年度报告、季度报告等公司财务报告。公告:董事会公告、监事会公告、股东大会公告等。上市资料:如招股说明书等公司上市相关文件。

Others are asking
结构化思维在AI办公里的应用
结构化思维在 AI 办公中有以下应用: 在 Model Context Protocol 托管平台中: 特色功能方面,Sequential Thinking 提供动态和反思性问题解决的结构化思维过程,适用于复杂问题分析和决策。 核心功能分类包括笔记管理工具(如 Simple Notes MCP Server、Bear MCP Server、Notion 集成)、AI 对话工具(如 Autonomous Coder Agent、OpenAI 兼容 API 集成)、Google Workspace 集成(如 Gmail 和 Google Calendar 集成、多账户管理、邮件搜索和撰写、日历事件管理)、学术研究工具(如 Semantic Scholar 集成、PubMed 搜索、arXiv 论文访问、IACR 密码学文献库访问)、AI 数据库管理(如 MySQL Server 集成、知识图谱记忆服务、DuckDB 集成、Airtable 集成)。 面对 AI 幻觉问题时,可使用结构化思考工具辅助判断,如决策矩阵用于面对多个选择时做出更理性的决策,检查清单用于执行复杂任务时确保每个步骤按计划完成,风险评估模型用于做重要决策时分析不同方案的风险并制定应对措施。 在让 AI 像人类一样思考方面,构建逻辑体感轮子,包括逻辑推理功能和内容抽象功能。内容抽象功能能够高效地组织内容,体现结构化思维,通过心智单元的抽象思维高效地组织复杂任务。
2025-04-14
结构化提示词
以下是关于结构化提示词的相关信息: 云中江树是 Prompt 提示词框架 LangGPT 的作者,并组建了 EmbraceAGI 学习社区。他早在 2023 年 3 月就提出了结构化构建提示词的方法,并发布在 Github,很快收藏破千。LangGPT 是 Language For GPT 的简称,中文名为结构化提示词,于 2023 年 5.4 青年节开源发布,成为 GitHub 开源社区全球趋势热榜前十项目,并撰写了学术论文开源发表。其提出的结构化提示词已被百度、智谱、字节、华为等国内主流大模型智能体平台使用,当前已发展成为国内最具影响力的高质量提示词工程师学习交流社群。您可以通过了解更多。 小七姐在其 Prompt 喂饭级系列教程小白学习指南(四)中提到,结构化 Prompt 的思想通俗来说就是像写文章一样写 Prompt。结构化编写 Prompt 本身算是提示词编写的进阶学习内容,这里为新手列举了一套(极简)基础的结构化编写 Prompt 的框架,例如:Role: Suno 结构提示词包含了众多流派和风格,如:爵士转折。
2025-04-12
如何用结构化提示词生成具体某一页PPT
以下是关于如何用结构化提示词生成具体某一页 PPT 的相关内容: 一、熊猫 Jay 的思路和指南 1. AI 生成 PPT 的主要思路 利用 AI 生成 PPT 大纲 培训文档助手提供核心提示词(仅供参考,可在此基础上丰富) 本章节结合 ChatGPT GPT4 模型生成大纲,也可利用其他 AIGC 工具 结构化提示词模版大多以 Markdown 语法构建,“”代表一级标题,“”代表二级标题,“”代表无序列表 输入关键信息生成大纲,包括针对不同人群的受众分析 2. 注意事项 提示词是利用 LangGPT 生成的基本提示词 语法的详细用法可自行了解 二、Kimi 的 15 款官方提示词 1. 【PPT 精炼】整理各种课程 PPT,输出结构明晰、易于理解内容文档 2. 【?爆款文案】生成高质量的爆款网络文案 3. 【?影剧推荐】根据喜好推荐影视,提供保姆级资源渠道 4. 【?影评达人】专业生成引人入胜、富有创意的电影评论 5. 【?职业导航】私人职业路径规划顾问,综合考虑个人特质、就业市场和发展前景 6. 【?营销策划】为产品或服务提供定制化营销活动策划 7. 【?面试模拟】私人面试 mock 伙伴,根据简历信息和求职岗位进行模拟面试 8. 【?宣传 slogan】快速生成抓人眼球的专业宣传口号 9. 【✍️期刊审稿】提前预知审稿人对文章的吐槽 10. 【?诗意创作】现代诗、五言/七言诗词信手拈来的诗歌创作助手 11. 【?推闻快写】专业微信公众号新闻小编,兼顾视觉排版和内容质量,生成吸睛内容 12. 【?要点凝练】长文本总结助手,能够总结用户给出的文本、生成摘要和大纲 13. 【?短剧脚本】创作定制化短视频脚本,包含拍摄要求和分镜细节 14. 【?美文排版】使用 Unicode 符号和 Emoji 表情符号优化文字排版,提供良好阅读体验 整理收录:小七姐 Prompt 星球:https://t.zsxq.com/15KhQ0RE7 三、甲木的方法 1. 让 Claude 帮做「古诗词卡片」 语文老师 PPT 配图有救了 主题+方向=符合诗词原意调性的古诗词名片 流程简单:输入 Prompt,用户输入主题、风格,AI 输出最终结果 获取提示词:第一版规定 AI 排版,固定输出;第二版释放 AI 创意,自由发挥,不受拘束 开源了提示词,可直接获取,关注、点赞、转发更佳 希望以上内容对您有所帮助。
2025-03-17
如果要搭建一个自己的业务知识的结构化知识库,推荐哪个平台和工具?
以下是为您推荐的搭建自己业务知识结构化知识库的平台和工具: 1. Coze: 影响 RAG 输出质量的因素:当下这些平台的 RAG 能力对问答场景友好,其他场景效果一般。若需要企业级复杂知识库场景,可能需要找专业团队,收费几万到几十万不等。 基础能力:包括提示词(设定 Bot 身份、目标和技能)、插件(通过 API 连接集成平台和服务)、工作流(规划和实现复杂功能逻辑)、记忆库(保留和理解对话细节,添加外部知识库)。 相关参考:编写提示(https://www.coze.cn/docs/guides/prompt)、插件介绍(https://www.coze.cn/docs/guides/create_plugin)、工作流介绍(https://www.coze.cn/docs/guides/workflow)、知识库介绍(https://www.coze.cn/docs/guides/knowledge)、数据库(https://www.coze.cn/docs/guides/database)。 2. 您还可以参考以下文章: 《小七姐:信息管理工具与方法》:从信息源的选择、信息通路的建立、知识结构化、知识内化与应用等方面展示了信息管理和知识体系搭建的过程。 《这可能是讲 Coze 的知识库最通俗易懂的文章了》:其中提到如果想使用专门搭建个人知识库的软件,可以查看《手把手教你本地部署大模型以及搭建个人知识库》(https://waytoagi.feishu.cn/wiki/ZKGmwsQhTihYZ8kdu7uccF1lnQc?from=from_copylink),忽略本地部署大模型环节,直接看其中推荐的软件。但使用该软件可能需要对接一些额外的 API,建议先了解 RAG 的原理再使用。
2025-03-05
如何让大模型输出结构化的数据
要让大模型输出结构化的数据,可以采取以下几种方法: 1. 设计合理的 Prompt 工程: 明确的待处理内容指引:在构建 Prompt 时,清晰地定义需要处理的文本,并使用标记框起来,让模型准确识别待处理内容范围。 提供明确字段定义:具体化每个字段的名称、用途及要求,为模型提供清晰的提取方向。 异常处理:设置异常处理原则,如规定缺失数据使用默认值填充,特殊数据类型符合标准格式,确保模型输出的完整性和一致性。 要求结构化输出:指示模型以结构化格式(如 JSON)输出数据,便于后续处理和系统集成。 2. 搭建工作流: 模型选择:根据需求选择合适的大模型,如默认的豆包 32k 或更大的 kimi128k 等。 配置参数:进行批处理,输入相关参数,如文章内容正文、url 链接和标题等。 提示词输入:将相关内容一起送给大模型进行总结,并拼接成特定格式输出。 汇总格式化最终输出内容:使用代码节点对大模型输出的内容进行最终格式化。 3. 探索 JSON Output 应用: 无模板的 Excel 导入:改变传统数据导入方式,通过 Prompt 读取想要的数据列。 AI 审核员:在人审环节前加 AI 审,提供相关知识和少量示例,输出简单结果。 分类器:一个 Prompt 即可完成分类任务。 应用于其它业务场景:如在一些业务场景中落地,提高效率。 但需要注意的是,过去大模型还不太成熟,应用过程可能会有一些困难。
2025-02-27
怎么让AI识别对话,并生成结构化数据存储到我的软件系统里
要让 AI 识别对话并生成结构化数据存储到软件系统里,可以参考以下方法: 1. 基于结构化数据来 RAG:如果原始数据本身就是结构化、标签化的,不必将这部分数据做向量化。结构化数据的特点是特征和属性明确,可用有限标签集描述,能用标准查询语言检索。以餐饮生活助手为例,流程包括用户提问、LLM 提取核心信息并形成标准查询、查询结构化数据、LLM 整合回复。 2. 利用 Coze 平台设计 AI 机器人:创建好 Bot 后,从“个人空间”入口找到机器人,进行“编排”设计。Coze 平台常用的概念和功能包括提示词(设定 Bot 身份和目标)、插件(通过 API 连接集成服务)、工作流(设计多步骤任务)、触发器(创建定时任务)、记忆库(保留对话细节,支持外部知识库)、变量(保存用户个人信息)、数据库(存储和管理结构化数据)、长期记忆(总结聊天对话内容)。设计 Bot 时要先确定目的,比如“AI 前线”Bot 的目的是作为 AI 学习助手,帮助职场专业人士提升在人工智能领域的知识和技能,并提供高效站内信息检索服务。 注:Coze 官方使用指南见链接:https://www.coze.cn/docs/guides/welcome ,遇到疑问也可查阅该指南。
2025-02-18
python数据分析
以下是关于 Python 数据分析的相关内容: BORE 框架与数据分析: 自动驾驶产品经理的工作中会涉及大量数据分析,数据分析是一门独立完整的学科,包括数据清洗、预处理等。从工具和规模上,写 Excel 公式、用 Hadoop 写 Spark 算大数据等都属于数据分析;从方法上,算平均数、用机器学习方法做回归分类等也属于数据分析。 用 ChatGPT 做数据分析的工具: 1. Excel:是最熟悉和简单的工具,写公式、Excel 宏等都属于进阶用法,能满足产品的大部分需求。ChatGPT 可轻松写出可用的 Excel 宏。 2. Python:有很多强大的数据分析库,如 pandas、numpy 用于数据分析,seaborn、plotly、matplotlib 用于画图,产品日常工作学点 pandas 和绘图库就够用。一般数据分析的代码可用 Jupyter Notebook 运行,用 Anaconda 管理安装的各种包。 3. R 语言:专门用于搞统计,但 Python 通常已够用。 实践:用 Kaggle 的天气数据集绘制气温趋势折线图与月降雨天数柱状组合图: 1. 项目要求:绘制气温趋势折线图+月降雨天数柱状组合图,即双 y 轴的图形。 2. 打开数据集,分析数据:发现关键表头与数据可视化目的的关联。 3. 新建 Python 文件,开始编程:包括调用库、读取数据、数据处理、创建图表、添加标题与图例、保存并显示图形等步骤。 4. 试运行与 Debug:发现左纵坐标数据有误,重新分析数据集并修改代码,最终实现可视化目的。 关于 ChatGPT 的预设 prompt: 在特定的设置下,当发送包含 Python 代码的消息给 Python 时,它将在有状态的 Jupyter 笔记本环境中执行,有 60 秒的超时限制,'/mnt/data'驱动器可用于保存和持久化用户文件,本次会话禁用互联网访问,不能进行外部网络请求或 API 调用。
2025-04-14
数据集去哪下载
以下是一些数据集的下载途径: 对于微调 Llama3 的数据集,获取及原理可参考文档:。 鸢尾花数据集下载请点击链接:https://scikitlearn.org/stable/modules/generated/sklearn.datasets.load_iris.html 。 天气数据集下载请点击链接:https://www.kaggle.com/datasets/muthuj7/weatherdataset 。建议创建一个文件夹,将下载下来的数据集放入文件夹中。
2025-04-14
基于多维评价数据,使用大模型生成个性化的家庭教育方案的可靠性高吗?
基于多维评价数据使用大模型生成个性化的家庭教育方案具有一定的可靠性,但也存在一些限制。 一方面,大模型在教育领域展现出了强大的能力。例如,能够为教师提供源源不断的真题库和错题练习库,模仿各类考试题型有模有样。在作文批改评分方面,如 GLM 模型,具备好词好句识别评测、作文综合评价评分等功能,能够综合考虑文章的多个维度给出评价,提供个性化反馈,保证评分的一致性等。 另一方面,也存在一些挑战。对于高学段理科等复杂领域,大模型的表现可能有限。在解读学生作文中的深层次含义,如隐喻、双关等修辞技巧,以及涉及特定文化背景和历史知识的内容时,仍存在一定难度。 然而,只要提示词到位、示例清晰,大模型在生成个性化家庭教育方案方面具有很大的潜力,可以为家长和孩子提供有价值的参考和帮助。但不能完全依赖大模型,还需要结合人工的判断和调整。
2025-04-13
如何利用 AI 赋能【数据分析在企业自媒体营销中的应用综述(以抖音、小红书平台为例)】
利用 AI 赋能【数据分析在企业自媒体营销中的应用综述(以抖音、小红书平台为例)】可以参考以下方法: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据以快速识别关键信息,如受欢迎的产品、价格区间和销量等。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:利用 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,更好地展示产品特点。 6. 价格策略:依靠 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:利用 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:借助 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:采用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:使用 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:依靠 AI 预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:利用 AI 分析不同支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:借助 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:利用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。 此外,还可以参考以下具体案例: 赛博发型师:基于 AI 技术为用户提供个性化的发型设计服务,通过分析用户面部特征、个人风格和偏好,自动生成发型设计方案,用户可上传照片,系统分析后生成详细报告和效果图,报告可存档至飞书文档供专业发型师复核评估。 营销文案创作专家深度版:专为企业营销团队等设计,提供从文案框架创作到生成的一站式服务,通过分析产品信息等挖掘痛点和卖点,生成营销文案,并提供营销数据分析服务以优化策略和提高协作效率。 抖音商家客服(C 端用户)/抖音带货知识库工具(B 端商家):作为 AI 客服系统建设助手,帮助企业实现一站式 AI 客服解决方案。 在实际操作中,还可以参考以下经验: 飞书、多维表格、扣子相关应用优化及自媒体账号分析演示分享:包括直播课程相关内容,优化社区文档问题,介绍技术栈选择,强调扣子、多维表格及 AI 字段捷径结合做数据分析的优势,现场演示账号分析效果,展示同步数据的自动化流程。 高效数据分析应用搭建实操讲解:先介绍数据在多维表格执行无二次请求的优势,接着进行技术实操,从新建“数据 AI 高效数据分析”应用开始,讲解抓数据、同步数据前设置变量等步骤,包括搭建界面、做工作流、保存变量等操作,可在市场选插件。 高雁讲解数据处理及多维表格操作过程:进行操作演示与讲解,包括将用户信息发送到多维表格、调整界面显示、处理按钮点击事件等操作,还讲解了批处理、代码节点等内容。
2025-04-13
现在做数据分析比较厉害的ai是什么
目前在数据分析方面表现较为出色的 AI 工具包括智谱清言、Open Interpreter 等。 AI 在数据分析中具有以下优势: 1. 降低入门门槛:过去学习数据分析需要掌握编程语言和专业知识,现在通过 AI 工具,门槛大大降低。 2. 规范的分析流程:对于初学者来说,AI 直接做的数据分析比他们自己第一次做的更好,其规范化流程更严谨,结果更可靠。 3. 自动化处理:会自动进行模型选择以匹配数据,还能根据 log 检查错误并改正源代码。 4. 减少重复性工作:重复性劳动可先交给 AI 做,人类用户只需做验证和检查结果。 实际应用的工具方面,GPT4 可以帮助建立和评估机器学习模型,Claude 等大语言模型可以进行数据分析和可视化,Open Interpreter 等工具可以辅助编程和数据处理。 使用时的建议包括:对 AI 结果要进行严格验证,不要完全依赖 AI,要保持独立思考,对 AI 的能力边界有清晰认识,合理使用以提高工作效率。同时,AI 应被视为辅助工具而非完全替代品,人类在整个过程中仍起主导作用和具有判断力。
2025-04-11
用AI做数据分析
以下是关于用 AI 做数据分析的相关内容: 流程: 逻辑流程图如下:上面说的两种方式对应流程图的上下两个步骤,红色部分是重点。 1. SQL 分析:用户描述想分析的内容,后台连接 DB,附带表结构信息让 AI 输出 SQL 语句,校验是 SELECT 类型的 SQL,其他操作如 UPDATE/DELETE 绝不能通过!!校验通过后执行 SQL 返回结果数据。再将数据传给 GPT(附带上下文),让 AI 学习并分析数据,最后输出分析结论和建议,和结果数据一起返回给前端页面渲染图表、展示分析结论。目前已实现两张表关联查询。 2. 个性化分析:用户上传文件,如有需要可以简单描述这是什么数据、字段意义或作用辅助分析。前端解析用户上传的文件,再传给 GPT 分析数据,后续步骤与上面一致。 工具和成功案例: 大概思路是这样: 1. 提供大模型可以访问的数据源或者上传数据表格。 2. 通过提示词说清楚需要以哪些维度分析数据,分析完成的结果要以什么格式输出。 3. 观察生成结果,迭代和优化提示词,最终满意后导出结果。 相关问题和技巧: 1. 关于“大模型幻觉”,目前没有办法消除,这本身就是大模型特性。可以通过其他第三方信息源和知识来检验生成是不是在胡说八道。 2. 结构化思维提高对话能力,在 AGI 搜索结构化三个字,有相关文章。上下文 token 长度如果指的是大模型的记忆窗口的话,没法延长,是设定好的。 案例分析: 以“用 ai 做数据分析,和爆款卖点分析”为例,这一创意将 AI 技术与商业洞察深度融合,展现了数据驱动决策的前瞻性。通过 AI 对海量用户行为、评论、竞品数据的挖掘,不仅能快速定位爆款产品的共性特征(如高频关键词、用户情感倾向),还能发现传统方法难以捕捉的潜在需求(例如隐藏的消费场景或未被满足的功能痛点)。尤其是结合时序分析预测市场趋势,为企业提供了动态调整产品策略的敏捷性,真正实现了从“经验决策”到“智能决策”的跨越。若想进一步突破,可考虑以下优化方向: 1. 多模态数据融合:除文本数据外,整合图片/视频的视觉分析(如通过 CV 技术识别爆款产品的外观设计共性),或结合语音数据(如直播带货中的实时用户反馈),构建更立体的卖点模型。 2. 因果推理增强:当前 AI 多聚焦相关性分析,可引入因果发现算法(如 DoWhy 框架),区分“真实卖点”与“伴随现象”。例如某款手机壳销量高是因为颜色,还是因与热门手机型号捆绑销售? 3. 个性化适配引擎:根据企业自身资源禀赋(供应链能力、品牌定位)对 AI 建议进行权重优化。例如小型厂商可优先推荐“低改造成本的高需求卖点”,避免直接对标头部品牌的资源密集型方案。 4. 对抗性验证机制:构建虚拟消费者模拟环境,对 AI 提出的卖点进行 A/B 压力测试,提前评估市场风险,避免出现“数据过拟合导致的伪创新”。
2025-04-11