当前位置: 首页 > news >正文

crm客户管理软件平台长沙优化网站

crm客户管理软件平台,长沙优化网站,wordpress 侧边栏目录,大连网站流量优(1)摘要 ①中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成…

(1)摘要

中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成败的关键因素之一。本文考虑引入一个辅助任务——中文发音预测(CPP)来提升 CSC 表现,并首次系统性地讨论了该辅助任务的自适应性和细粒度性。我们提出了 SCOPE 模型,其基于一个共享编码器构建了两个并行的解码器:一个用于主任务 CSC,另一个用于细粒度的辅助任务 CPP
同时,我们设计了一种新颖的自适应权重机制来动态平衡这两个任务。此外,我们还提出了一种精巧的迭代纠错策略,用于在推理阶段进一步提高性能。实证评估表明,SCOPE 在三个 CSC 基准测试集上均取得了新的最先进性能(state-of-the-art),验证了辅助 CPP 任务的有效性和优越性。全面的消融实验进一步证实了辅助任务中自适应性和细粒度性的重要性。本文使用的代码和数据已公开发布在:https://github.com/jiahaozhenbang/SCOPE

(2)介绍

①中文拼写纠错(CSC)旨在检测并纠正中文文本中的拼写错误,是中文自然语言处理中的一项基础任务。拼写错误主要源于人类写作错误和机器识别错误随着深度神经网络的不断发展,基于神经网络的 CSC 方法,特别是基于编码器-解码器结构的方法,近年来已成为研究主流。编码器-解码器模型将 CSC 视为一种特殊的序列到序列(Seq2Seq)问题,即将一个包含拼写错误的句子作为输入,生成一个长度相同的纠正句子作为输出
②大约 76% 的中文拼写错误是由语音相似性引起的。因此,有效建模汉字发音对 CSC 任务而言至关重要。事实上,几乎所有当前先进的 CSC 方法都或显式、或隐式地利用了汉字发音信息隐式利用是指在字符对之间考虑语音相似性,显式利用则是指直接使用字符的拼音信息,将输入字符的拼音编码为额外的语音特征,或将目标字符的拼音解码作为辅助预测任务。本文同样尝试通过引入辅助的字符发音预测(CPP)任务来提升 CSC 表现,但着重于探讨此前从未系统研究过的两个关键方面:辅助任务的自适应性与细粒度性。
(1)自适应性:表 1 中所示的几个样本里,相较于第 4 个样本中**“蓝”与其正确形式“监”的差异**,第 1 个样本中“完”与“玩”在发音上更为相似所以应该给予辅助任务更大的权重
在这里插入图片描述
(2)细粒度:以往的研究主要着眼于预测汉字的完整拼音(例如“高”的拼音是“gao1”)。然而,一个汉语音节本质上由**声母(initial)、韵母(final)和声调(tone)**组成,例如“高”对应的就是“g”、“ao”和“1”。这种更细粒度的发音表示不仅更贴合汉语语音的内部规律,也能更准确地刻画汉字之间的语音相似性。例如在表 1 中的第 2 个样本中,“高”和“告”的完整拼音不同,但它们实际上具有相同的声母和韵母,仅在声调上有所区别
(3)设计了 SCOPE,它引入了一个细粒度的 CPP 辅助任务,并通过一个自适应任务加权机制来提升 CSC 表现。具体来说,SCOPE 首先接收一个包含拼写错误的句子作为输入,**用ChineseBERT对其进行编码,提取语义和语音特征。**然后,在共享编码器的基础上构建两个并行的解码器:一个用于生成目标正确字符(即主任务 CSC),另一个用于预测每个目标字符拼音的声母、韵母和声调(即辅助的细粒度 CPP 任务)
在这里插入图片描述

这两个任务之间的权重可以根据输入与目标字符之间的语音相似度,在每个样本级别上自适应地调整。

(3)模型

①建模的模型描述

在这里插入图片描述

②模型架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

②约束迭代纠错

基于预训练语言模型(如 BERT 和 ChineseBERT)的先进 CSC 模型在处理多错文本时表现不佳,常将原本正确表达过度纠正为更常见表达。为此,我们在推理阶段设计了一种简单但有效的约束迭代纠错策略:每个输入句子通过迭代方式进行错误检测与纠正。每次迭代中,仅允许在上一次迭代纠正位置的特定窗口范围内进行修改。若某位置在每轮都被修改,最终将恢复为原始字符而不予纠正。

③基于混淆集的进一步预训练:预训练之后再微调(用于提升初始化效果)

在这里插入图片描述

(4)实验

①数据集与评估方式

在这里插入图片描述
实验结果如下:
在这里插入图片描述

②基线方法

在这里插入图片描述

③基线方法

http://www.cadmedia.cn/news/10622.html

相关文章:

  • 重庆市建设工程施工安全管理总站优化新十条
  • 网站建设与网页设计作业seo有哪些优化工具
  • 浙江建设三类人员证书查询成都优化网站哪家公司好
  • 海东网站建设公司北京seoqq群
  • 网页设计包含的内容网站优化师
  • 建立网站还是建设网站想做电商怎么入手
  • 知名的网站建设百度seo软件
  • 三屏网站建设seo在线优化技术
  • 政府网站内容建设 投标重庆排名seo公司
  • 苏州营销网站建设公司排名培训机构营业执照如何办理
  • 聊城专业网站开发公司seo推广优化公司哪家好
  • 北京网站建设升上去济南专业做网站
  • 做网站建设的怎么赢利搜索引擎优化的常用方法
  • 阳江房产网签查询seo网站推广如何做
  • 中恒建设职业技术培训学校网站推广怎么推
  • 荥阳市建设局 网站安卓优化大师老版本下载
  • 政务网站建设的功能模块东莞百度快速优化排名
  • 芗城网站建设苏州seo网站管理
  • 网站开发的公司排名如何优化搜索引擎的搜索功能
  • 装饰设计培训网络seo推广
  • 学校网站 建设措施百度推广电话销售好做吗
  • 建设银行网站无法打开seo技术网
  • wordpress数据连接信息百度网站优化软件
  • 备案期间关闭网站排名优化seo公司
  • 安徽网站建设维护百度站长快速收录
  • 土木工程网官网首页佛山百度关键词seo外包
  • 湛江宇锋网站建设长沙seo推广公司
  • 龙岩市住房与城乡建设部网站重庆森林为什么不能看
  • 网络推广的几种主要方法成都seo技术
  • 做网站要固定电话百度推广一个月多少钱