Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

Rerank Model

Answer

重排通常是通过专门的 Rerank 模型来实现的。例如在一些研究中，如基于 Notion 和 Coze 打造个人知识问答系统，提到若不考虑速度和成本，最好的语义相关度计算算法就是 LLM 本身，所以直接使用 LLM 来做打分和重排。在大模型 RAG 问答的行业最佳实践中，如 Baichuan 案例，对于 Rerank 和 selection 的作用范围存在一定的不确定性，合理猜测是对全部 Material 进行重排序和筛序。

Content generated by AI large model, please carefully verify (powered by aily)

References

基于 Notion 和 Coze 打造个人知识问答系统（含提示词、代码以及完整的工作流设计）

重排一般是通过专门的Rerank模型来实现的，但是本文没有采用这种方案，而是参考了Qwen-Agent这个研究[5]，直接使用LLM来做打分和重排。因为我有一个不太成熟的想法：如果不考虑速度和成本的话，最好的语义相关度计算算法就是LLM本身。https://qwenlm.github.io/zh/blog/qwen-agent-2405/

ComyfUI DynamiCrafter

这两个模型是DynamiCrafter封装节点分割好的模型模型放在ComfyUI/models/checkpoints中（也可以放在子文件夹中）模型地址https://huggingface.co/Kijai/DynamiCrafter_pruned/tree/maindynamicrafter_1024_v1_bf16.safetensors(1024x512)https://huggingface.co/Kijai/DynamiCrafter_pruned/blob/main/dynamicrafter_1024_v1_bf16.safetensorsdynamicrafter_512_interp_v1_bf16.safetensors(用于插帧)https://huggingface.co/Kijai/DynamiCrafter_pruned/blob/main/dynamicrafter_512_interp_v1_bf16.safetensorsGPU内存消耗：18.3GB（576x1024），12.8GB（320x512），11.9GB（256x256）。第一次运行会下载模型,如果没有配置环境,可能会失败

大模型RAG问答行业最佳案例及微调、推理双阶段实现模式：基于模块化(Modular)RAG自定义RAG Flow

此外还引入了self-Critique让大模型基于Prompt、从相关性和可用性等角度对检索回来的内容自省，进行二次查看，从中筛选出与Prompt最匹配、最优质的候选内容。由于在整个Baichuan RAG Flow中分支较多，也并没有具体披露，Rerank和selection是之仅对检索分支出来的内容，还是对其他分支中已经已经生成的内容也要进行。在这里，合理猜测是对全部Material进行重排序和筛序。

Others are asking

什么是Diffusion Model

在 AI 图像生成中，“Diffusion Model”（扩散模型）是一类生成模型。其工作原理包括以下几个方面： 1. 正向扩散过程：向图像逐渐添加高斯噪声，直至图像完全无法识别，此过程可形式化为顺序扩散马尔可夫链。 2. 潜空间表示：将图像压缩到低维的潜在空间中，以减少计算量并提高生成速度。 3. 学习逆向过程：训练神经网络来预测每一步中噪声的分布，并逐步去除噪声以恢复清晰图像。 4. 文本到图像的生成：结合文本编码器和图像解码器，依据文本描述生成相应图像。扩散模型的关键优势在于能够生成高质量的图像，且相比其他生成模型（如 GANs）在计算效率和稳定性方面更具优势。例如 Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具，可根据文本提示生成逼真的图像。扩散模型的逆向过程，即从噪声中恢复图像的过程，可类比为雕刻，AI 逐步去除不必要的部分，最终得到清晰的图像。这个过程可以逐步进行，也可以一次性完成，取决于模型的具体实现和采样算法。总的来说，扩散模型为 AI 图像生成提供了强大的技术手段，能在多种场景下生成高质量的图像。例如 Midjourney 就是一个由 Latent Diffusion Model（LDM）驱动的 AI 图像生成工具，它通过文本提示和参数输入，利用基于大量图像数据训练的机器学习算法生成独特的图像。

Stable Diffusion 是 Diffusion Model 的优化版本，引入了潜在空间（Latent Space）技术，这个潜在空间（Latent Space）是什么意思，它的实现原理是什么？

在 Stable Diffusion 模型中，潜在空间（Latent Space）指的是图像的潜在分布，它包含了与图像相关的所有信息。图像被映射到潜在空间后，扩散过程在这个空间中进行。ComfyUI 中的许多操作都在潜在空间中进行，如 KSampler 节点就是在这个空间中执行采样过程。在潜在空间中，通过节点调整对潜在空间的操作，如噪声添加、去噪步数等，这部分通常由潜在空间操作模块来实现。在 Stable Diffusion 模型中，图像的潜在分布是通过一个编码器解码器结构来学习的。编码器将图像映射到潜在空间，而解码器则将潜在空间中的向量映射回图像空间。通过这种方式，模型可以学习到图像的潜在分布，从而实现图像生成、编辑和操作。在采样过程中，Stable Diffusion 模型通过逐步降低噪声水平来生成图像。在这个过程中，模型根据当前的噪声水平预测图像的潜在分布，然后根据这个分布生成一个新的图像。这个过程重复进行，直到生成一个高质量的图像。与之对应的是像素空间（Pixel Space），像素空间指的是图像中每个像素的原始颜色或强度值所组成的空间。图像可以看作是一个二维或三维的矩阵，其中每个元素代表一个像素。在像素空间中，图像的表示是密集的，且包含了大量的细节信息。