非均匀性:文本爆发度可以用来衡量文本中某个词的不均匀性。如果一个词在某些段落或时间点突然频繁出现,而在其他时间很少出现,那么这个词的爆发度就很高。
相反,如果一个词出现的很均匀,没有明显的波峰或波谷,那么它的爆发率就低。
AI生成的词频分布往往非常匀称,避免过度重复出现,这是由于GPT类的大模型,在避免过拟合带来方副作用,避免复读机现象,从而降低文本的爆发度!
但是人类的文本,会由于情绪、侧重体现,也就是说,人类会产生某种的颅内高潮,集中爆发一系列的词汇,但AI的情绪稳定,发挥也稳定。
理论:机器是完美的,人类是具有健壮性的,人类的情感更复杂,非常不稳定,所以变异数量更大。我认为在迈向ASI的道路上,我们必须要引入更大变量,解决拟合问题。
当然,市面上很多AI检测器的原理其实就引入了 爆发度 Burstiness 的检测。
笔者感悟:深切的体会到了大自然的鬼斧神工,人类这一物种,不稳定性也可以带来健壮性,情感带来了灵感,带来了艺术创作,这种细微程度,与当下的AI并不相同,