多语言深度改写降AI检测的探索

不得不说，现在的AI检测器都太牛掰了，但是深度改写降AI的工具，都非常拉胯。

调研了好几家AI改写，发现改写完毕以后有很多问题，包括通顺度和错别字问题，这种降AI的方式其实不太友好，起码不能损失语义。

在这种基础上，仅依赖工程是不行的，必须依靠模型来解决问题，而GPT是不行的，提示词根本无法约束，即便约束以后，成本暴增，难怪所有的AI改写器都很贵，我现在理解了。

而AI检测的原理是检查爆发度和困惑度

困惑度的原理：

爆发度的原理：

在这种基础上，我们必须要用其他的改写模型来实现，几经试验，发现最合适的是T5的模型，相比GPT来说，它对句子的语义损失更低，而GPT比T5的幻觉严重很多。

所以GPT身上出现的问题，T5并不会，在这种基础上，处理数据集就是个非常头疼的问题，这是一种：

AI GPT Text To Human Text 的任务，把AI生成的文本转换为人类创作，即要保证语义完整，又要保证通顺度和流畅度，在工程的末尾，还要保证流畅度和错别字问题，包括一些文本格式。

将AI生成的文本转换为自然的人类文本，既不能损失语义，又要保证流畅度和不出现错别字，所以还得整1个模型，纠错模型。

而RoBERTa用来负责错别字纠正，是非常好的选择。

利用Sentence-BERT的双塔结构生成句子嵌入，通过聚类方法分析句子嵌入的分布。通顺的句子通常会形成紧密的簇，而不通顺的句子可能会远离这些簇，这样它能够生成固定长度的句子嵌入，这些嵌入可以用于快速计算句子相似度，还可以生成多个改写候选句，通过嵌入计算每个候选句子与原始句子的相似度，从中选择语义保持最佳的改写版本。可以帮助确保语义一致性和通顺度，使改写后的文本质量更高。

这就变成了 T5改写模型 + RoBERTa来负责错别字纠正 + Sentence-BERT通顺度候选，来保证即不损失语义，又可以改写成越过检测器的方案。

每个段落都要经过AI检测器再去检测一遍，这样可以保证整篇的文章是可以降低AI撰写率的。

总的来说，这是一个复杂的多模型工程！

发表于 2025-01-15 20:04
阅读 ( 255 )
分类：默认

多语言深度改写降AI检测的探索

0 条评论

你可能感兴趣的文章

相关问题