网络不规范字词研究:常见错误或通过输入法记忆功能被固化

小刘

网络不规范用字问题频发,不仅影响人们对汉字的理解和使用,也对公众造成不良示范。一些常见错误可能会通过输入法记忆功能固化错误选择,成为网络不规范字词出现的重要原因。

网络不规范字词研究:常见错误或通过输入法记忆功能被固化
(图侵删)

6月8日,由澎湃新闻牵头发起,上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建的“数字内容生态实验室”发布《网络不规范用字用词现象研究报告》。实验室随机抽取2022年12月到2023年3月期间互动论坛、数字报、客户端、微博、网站、微信、短视频平台七类信源内容,形成具有4946.3万条、706.6亿字内容的样本。经过排查发现,网络语言环境中的不规范字词主要包括误用繁体字、异体字、异形词、常见错误等。

报告显示,按照错误类型统计,常见错误是出现频率最高的类型,占比超过六成;繁体字也是较常出现的错误类型,占比达到20%;异体字、异形词出现相对较少,因异形词、异体字可将规范文件纳入输入法数据库,通过选词推荐等技术手段减少误用。相较而言,形近字、形近词错选等常见错误以及公众主观通过错用体现个性的情况更易发生,且可能通过输入法记忆功能固化错误选择,成为网络不规范字词出现的主要原因。

不规范字词分类统计针对互联网不规范字词现象,报告从多角度分析不规范使用行为背后的原因,包括人机交互输入方式的限制、创作者能力参差不齐、网络个性化表达促成不规范用字用词风气、专业内容平台示范作用有待进一步发挥等。报告认为,其中,互联网时代的人机交互方式是导致互联网汉字不规范使用的重要原因。相比手写等传统记录方式中逐字思考记录,使用计算机录入可通过输入法的联想功能大大加快内容输入速度,但更容易出现形近、音近字选择疏忽;输入法选词推荐同时呈现字音相同、字形相近、字义不同的易错词,增加了困惑和误用的可能性。对此,报告认为,以输入法技术优化促进汉字规范使用是减少网络不规范字词最直接的方式之一。受技术限制,过往输入法仅通过正在输入的拼音等信息进行字词推荐。结合人工智能语言模型等前沿技术优化输入法功能,实现结合上下文语境推荐选词,提高选词准确性。在内容发布平台引入智能不规范字词监测工具,优化文本内容检查功能,如微信公众平台的疑似错别字自动检测系统,以及澎湃清穹内容风控智能平台、铀媒等专业的内容审核、校对及管理工具,协助内容发布者正确规范用字用词,形成互联网正确使用字词的氛围;推广针对不同文体、主题的不规范字词检查工具,以技术手段促进汉字文化传承。

上海蜜度智能校对事业部总经理张晓娟表示,目前,国内已有智能校对系统能够针对汉语特点,将字义、字形和字音三类信息以多模态方式编码进大规模深度神经网络中,捕捉句子的细粒度语义信息和长程语义依赖关系,实现错别字、冗余、缺失、语法错误等文字差错的自动识别,同时具备主动演进策略,能够持续学习新的语言现象以改进校对效果,是人工智能技术在语言文字处理领域的典范,为语言文字规范性的监督管理工作提供了有力支撑。

(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)

光大证券:岁末年初投资机会值得期待丨投资有看投

检查报告互联互通互认,上海今年将争取实现市区医疗机构联动

阿富汗陆军参谋长遭解职,总统“亲征”北部孤城

马上评|老人强行讨喜钱被行拘,勿以恶小而纵之

中国恒大:已收到广州市中级人民法院发出的诉讼通知

前瞻|两强争霸变群雄逐鹿 今年中超冠军悬念更足

腾讯已有超过50个自有产品和业务接入混元大模型测试

瓷砖公司老板将五千平展厅改猫咖收养布偶猫,爆火后遭不少人私信借钱

文旅快评|在山东开会,迎世界游客

中国电影博物馆打造“电影+”文化体验新场景

三七互娱:全资子公司拟参投合伙企业 布局前沿科技领域

2023年A股红盘收官,明年1月中旬是关键时点?券商投资策略提前看

网络不规范字词研究:常见错误或通过输入法记忆功能被固化的相关内容

文章版权声明:除非注明,否则均为风扇网络原创文章,转载或复制请以超链接形式并注明出处。

取消
微信二维码
微信二维码
支付宝二维码