• 收藏
  • 加入书签
添加成功
收藏成功
分享

数据标注平台的众包模式研究

项露芬
  
富网媒体号
2024年262期
浙江树人学院 浙江杭州 310015

打开文本图片集

摘要:数据标注数据是人工智能和机器学习的基础,通过对图片、视频、文字等进行数据标注,形成标签或元数据,提高机器发展质量,提高算法精准性。对数据标注平台开展众包模式,通过众包模式获取人工标注数据具有节约成本提高覆盖率和工作效率。为此,如何提高众包模式的工作质量,如何规划众包模式成为研究的核心。本文对数据标注平台的众包模式进行研究讨论,期望能对众包模式研究提供新思路。

关键词:数据标注平台;众包模式;研究

引言

众包模式通常由个人或个体团体承担的工作任务,通过网络进行联系,自由承接工作内容,因此众包模式具有一定的灵活性和难以控制性。数据标注平台使用众包模式能利用全球人的智慧和数据标注能力完成工作任务,提高标注质量和创新性,推动数据标注平台的进一步发展。

一、公开发发布数据标注任务

数据标注平台的众包模式需要将工作任务公开发布互联网,促使全球的数据标注人员能根据自己的数据标注能力接收任务,完成数据标注工作[1]。因此,任务的发布要及时、公开、列清楚报酬、任务要求等内容,促使工作者能根据任务要求明确承接任务种类,维持高质量的数据标注精准度。进而提高AI模型训练质量,推动机器智能化发展。

二、建立工作者严格选择机制

数据标注平台的众包模式需要对工作者进行严格选择,根据工作者提交的工作经历、能力等确定是否聘用[2]。只有确保工作者的工作能力和质量才能提升数据标注质量和精准度,保障数据标注平台的效率,推动智能化发展。为此在众包工作人员确定时要保证其数据标注能力与平台相匹配,就要对工作者进行选择。根据工作者投递的简历进行初次判断,细致研究其工作经历和质量,并要求其提交数据标注范本,根据范本的质量确定其是否有能力开展数据标记工作。

为此,众包平台要对众多工作者进行分类,根据标注擅长领域划分到不同的数据标注模块中,实现对工作者的初次分类。然后在每种领域的工作者中再次进行数据标注能力测试,规定数据标注任务和时间限制,只有在规定时间内完成数据标注任务的人员才能入围众包工作团队。另外,对具备数据标记能力的人员建立积分机制,每个人初始积分为0,每接一次数据标注任务,记一次积分。由数据标注平台对工作人员进行积分打分,对工作人员的数据标注能力及质量进行分值控制,依据分值支付报酬。在工作人员积分不断增加的过程中,说明其数据标注能力也在不断提升,进而提高数据标注平台的精准度和稳定性。

三、强化众包模式审核机制

数据标注平台采用众包模式能借助互联网工具利用全球的人力资源开展数据标注,降低标注成本,快速收集并标注数据,提高标注效率[3]。但是众包模式下的数据标注不能完全保障质量,为此需要建立严格的审核机制,对数据标注质量和情况进行审核,保证质量的众包人员才能获得高的回报,这样同样保障数据标注的精准度,提高标注质量。审核机制的确立要根据数据标注平台的要求细致划分审核程序,数据标注平台的标准见表1.

表1据标注平台的标准表

一致性 众包模式的标注人员根据标注规范确保数据标注的结果的一致性。具体为目的一致、标注方法一致、要求一致等。

逻辑清楚 众包模式的标注人员明确标注对象、类别、方式等元素,以清晰的逻辑思维开展数据标注。

精准性 如实反馈数据信息,用精准的数据、信息进行标注,确保标注数据的真实、科学。

可拓展性 数据标注平台是为机器智能化发展而服务,标注的数据要具备一定的可拓展性,在调整标注范围时不会影响标注质量和精准度。

质量把控 众包模式的数据标注人员自主进行数据审核,确保提交的数据精准度达标。

众包平台根据数据标注平台的标准制定严格的审核机制,对数据标注质量、精准度、拓展性、逻辑性等进行严格把控,杜绝数据标注质量波动、不稳定的局面。这样才能不断提升数据标注平台的工作推进,同时提高众包模式的可持续发展。在相互就监督和审核前提下,保障数据标注真实、精准、可靠,实现共同发展。

四、建立完善的激励机制

数据标注平台的众包模式需要建立奖励机制,从而获得高质量、高效率的数据标注工作,提高标注的准确性,促使机器人适应多种应用场景,推动智能化发展。数据标注平台采用众包模式具有一定的不确定性,对数据标注质量难以把控,为此可以建立激励机制,通过激励制度提高众包模式工作质量,强化数据标注工作的精准度,同时提升众包人员的信誉,体现用户自我价值。在激励制度中,通过建立积分制让众包人员建立信誉体系,积分越高,信誉度越好,则其获得数据标注报酬也会相对较高。这样通过积分方式提升众包人员信誉及工作积极性,确保数据标注的工作质量及精准性,才能在众包模式发展中实现自由工作的信誉度提升,推动众包模式的发展,提高数据标注平台的智能化迈进。

数据标注平台的众包模式可以采用有报酬支付激励、娱乐游戏激励、社交关系激励、虚拟积分激励、混合激励等方式等激励机制,控制众包人员工作质量,提高积极性,并针对众包人员的信誉进行测评,在确保众包模式的信誉度不断提升过程中推动数据标注平台的智能化发展。通过采用激励机制,应用积分积攒信誉,规避众包人员工作质量不稳定,无法控制众包工作质量的问题。推动数据标注平台的发展,为机器认知、判断力提升提供精准数据信息,强化智能化发展。

总结

本文针对数据标注平台的众包模式研究进行讨论,从公开发发布数据标注任务、建立工作者严格选择机制、强化众包模式审核机制、建立完善的激励机制等角度进行讨论,提出数据标注平台众包模式的建议。确保数据采集和标注方面,数据源的版权、数据标准、数据审核的高质量推进,推动数据标注平台和众包平台的综合发展,助推机器智能化进程。

参考文献:

[1] 于晓繁. 基于本体和元数据的语义标注平台模型与系统架构研究[D]. 山东:山东理工大学,2012.

[2] 聂震云. 基于众包的数据标注系统[D]. 北京:北京交通大学,2014.

[3] 邰阳. 基于众包的语料标注系统设计与实现[D]. 辽宁:大连理工大学,2013.

项露芬 出生年月日:1985年6月16日 性别:女 民族:汉族 籍贯:富阳

学历:研究生 职称:讲师 研究方向:大数据处理与分析

工作单位(单位省市邮编):浙江树人学院 浙江杭州310015

课题来源、名称、编号:浙江省普通本科高校“十四五”教学改革项目“基于新工科理念的数据科学与大数据技术专业复合型应用人才培养模式研究(jg20220476)”

*本文暂不支持打印功能

monitor