IT之家获悉,基于剧本的角色情感识别主要是依托剧本中每句对白和动作描述,对相关角色进行多维度分析,并识别出情感。相对于常见的新闻、评论性文本的情感分析,有其独有的业务特点和挑战。
本赛题也基于爱奇艺业务场景提出,需要参赛者利用自然语言处理和相关的技术手段,来对剧本中存在的多种情感元素进行综合判断和识别。
剧本所富含的情感是剧本的灵魂,一个好的剧本总包含着充分的情感释放,情感分析正是剧本评估中非常有意义的一个方面。
赛题概览
爱奇艺为本次挑战赛准备了一部分剧本场景作为训练集,训练集数据已由人工进行标注,参赛队伍需要对剧本场景中每句对白和动作描述中涉及到的每个角色的情感从多个维度进行分析和识别。
本赛题的情感定义共 6 类(按顺序):爱、乐、惊、怒、恐、哀;选手可以根据上述 6 类情感按固定顺序对应的情感值,情感值范围是 [0, 1, 2, 3],0-没有,1-弱,2-中,3-强,以英文半角逗号分隔;本赛题算法评分将采用常用的均方根误差(RMSE)来计算评分,按照“文本内容 + 角色名”识别出的 6 类情感对应的情感值来统计。
和其他类文体相比,剧本类文本行文风格和通常的新闻类语料差别较大,更加口语化,同时,剧本场景中的对白和动作描述都涉及到角色的情感,而且要从 6 个维度进行识别,难度也更高;再加上剧本中角色情感不仅仅取决于当前的文本,对前文语义可能有深度依赖,很容易出现识别错误。
赛题赛程
CCF 大数据与计算智能赛(CCF Big Data & Computing Intelligence Contest,简称 CCF BDCI)由中国计算机学会于 2013 年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。本次 2021 年 CCF BDCI 第九届大赛以“数引创新,竞促汇智”为主题,立足余杭、面向全球,欢迎各路精英选手前来参赛。