困惑度最早用来评估大语言模型的,这玩意儿主要是衡量大语言模型预测能力的一种指标,值越低,说明这个模型对预测的效果越好。这个概念最早是在NLP里面,后来被用到大语言模型去了。
困惑度越低,说明模型对给定上下文预测下一个词的概率分布越确定,即模型更“ 自信”。
也意味着模型在给定上下文的情况下能够更准确地预测下一个词。
例如:“中国的首都是”,模型预测下一个词为“北京”的概率非常高,困惑度很低,因为这是一个常见的句子。
同时也可能带来一个问题是:预测多样性较低!所以这种确定性很高。
与人类相比
人类经常会撰写不常见组合,充满了多样性,因为多样性很高,所以他的困惑度也很高。
人类拥有很高的爆发力和随机性,所以这里面会涉及到一个专业概念“文本爆发度”。
所以,很多人会使用提示词来改变这种情况,来越过提示词,所谓的降AI。当然,越不过我们的AI检测器,因为我们的AI检测器把这个漏洞补了。哈哈
但是,对付一些简单的AI检测器,足够了!