Chat with Wiki - 如何计算两耳文本的相识度

Answer

计算两耳文本的相似度通常可以通过以下步骤和方法：

文本预处理：将文本转为 tokens，再转为向量。
相似度计算：在文本转为向量后，通过欧式距离或 cosin 角度来计算两个文本之间的相似性。
聚类分析：可以将向量通过主成分分析降维到 2 维空间，观察文本聚类效果。
文本单位定义：文本统计单位“1”通常是以二级类别来衡量，例如屏幕模糊，它包括画面模糊、边缘模糊、文本模糊等细分情况。若要统计三级类别情况，目前多采用人工统计。
算法应用：使用 SBERT 算法时，会将描述主体相同且带有相似形容词的文本设为高相似性。但在某些情况下，不能将三级类目作为文本统计项。
借助工具：如可以询问 Claude 两段文本在含义上是否大致相同，通过特定的提示格式让 Claude 进行判断和回答。

Content generated by AI large model, please carefully verify (powered by aily)

References

本段介绍文本挖掘的底层思考。1.在文本世界，文本会转为tokens，再转为向量，放到计算机里面运算，找出规律(model)。1.在文本转为向量后，通过欧式距离或cosin角度计算两个文本之间的相似性。下图是是将向量通过主成分分析降维到2维空间，看到文本聚类效果。1.文本单位定义1.1.以屏幕显示质量和设备兼容性在二维分布为例，属于两个不同的clustering（类别）。1.2.假如我们统计屏幕边缘模糊，在使用SBERT算法时，会将屏幕色彩艳丽，文本模糊等设为高相似性，因为他们都在描述（主体：屏幕）+（形容词）。所以我们不能将三级类目作为文本统计项，即定义为基本单位“1”。1.3.文本基本单位“1”是以二级类别来衡量，即屏幕模糊。它包括画面模糊、边缘模糊、文本模糊等细分情况。若真的需要统计三级类别情况，目前只能人工统计。1.4.声明：屏幕模糊是极少部分用户个案，XREAL屏幕质量比其他厂商好。文本统计单位“1”是一个clustering概念，因为向量空间难以找到100%一样的两个单位，更多距离更近的单位，所以统计以clustering计算。

邬嘉文：AI做用户研究｜Claude 3 Opus可以直接输出用户研究报告

Cookbook： Claude2 中文精读

你可以给Claude许多类型的文本——文章、电子邮件、会议记录、数据库记录等，它可以帮助你消化、解释和回答相关问题。由于其具有10万标记上下文窗口，Claude可以分析数以万计的单词。以下是这种能力的一些基本应用。[heading2]评估文本相似度[content]我们可以询问Claude两段文本在含义上是否大致相同。检查文本相似性的提示：人类:你将要检查两句话是否大致表达了相同的意思。这是第一句话:"{{SENTENCE1}}"这是第二句话:"{{SENTENCE2}}"如果它们的意思大致相同，请以"[YES]"开始你的回答，如果不相同，请以"[NO]"开始。助手:[通过用[开始Claude自己的回答，我们帮助"强化"了提示指令，即使用该格式并以yes或no开头回应的指示。[heading2]回答有关文本的问题[content]检查文本相似性的提示：在这里，我们提供了一个会议记录给Claude，并提出了一个问题，让Claude使用这个记录来回答问题。文本问答提示人类:我将给你一个会议记录的示例，然后我将问你一些关于记录的问题。<transcript>{{TEXT}}</transcript>这是第一个问题:{{QUESTION}}助手:引用来源要查看我们要求Claude基于文档回答问题并引用答案来源的示例提示，请参阅高级文本分析。