多语言深度改写降AI检测的探索

不得不说,现在的AI检测器都太牛掰了,但是深度改写降AI的工具,都非常拉胯。 调研了好几家AI改写,发现改写完毕以后有很多问题,包括通顺度和错别字问题,这种降AI的方式其实不太友好,起码不...

不得不说,现在的AI检测器都太牛掰了,但是深度改写降AI的工具,都非常拉胯。

调研了好几家AI改写,发现改写完毕以后有很多问题,包括通顺度和错别字问题,这种降AI的方式其实不太友好,起码不能损失语义。

在这种基础上,仅依赖工程是不行的,必须依靠模型来解决问题,而GPT是不行的,提示词根本无法约束,即便约束以后,成本暴增,难怪所有的AI改写器都很贵,我现在理解了。

而AI检测的原理是检查爆发度和困惑度

困惑度的原理:

爆发度的原理:

在这种基础上,我们必须要用其他的改写模型来实现,几经试验,发现最合适的是T5的模型,相比GPT来说,它对句子的语义损失更低,而GPT比T5的幻觉严重很多。

所以GPT身上出现的问题,T5并不会,在这种基础上,处理数据集就是个非常头疼的问题,这是一种:

AI GPT Text To Human Text 的任务,把AI生成的文本转换为人类创作,即要保证语义完整,又要保证通顺度和流畅度,在工程的末尾,还要保证流畅度和错别字问题,包括一些文本格式。

将AI生成的文本转换为自然的人类文本,既不能损失语义,又要保证流畅度和不出现错别字,所以还得整1个模型,纠错模型。

而RoBERTa用来负责错别字纠正,是非常好的选择。

利用Sentence-BERT的双塔结构生成句子嵌入,通过聚类方法分析句子嵌入的分布。通顺的句子通常会形成紧密的簇,而不通顺的句子可能会远离这些簇,这样它能够生成固定长度的句子嵌入,这些嵌入可以用于快速计算句子相似度,还可以生成多个改写候选句,通过嵌入计算每个候选句子与原始句子的相似度,从中选择语义保持最佳的改写版本。可以帮助确保语义一致性和通顺度,使改写后的文本质量更高。

这就变成了 T5改写模型 + RoBERTa来负责错别字纠正 + Sentence-BERT通顺度候选,来保证即不损失语义,又可以改写成越过检测器的方案。

每个段落都要经过AI检测器再去检测一遍,这样可以保证整篇的文章是可以降低AI撰写率的。

总的来说,这是一个复杂的多模型工程!

  • 发表于 2025-01-15 20:04
  • 阅读 ( 4 )
  • 分类:默认

0 条评论

请先 登录 后评论
李陈科技
李陈科技

692 篇文章

你可能感兴趣的文章

相关问题