“山西财经大学图书情报实践与创新讲堂”暨“数字产品产教融合研究生联合培养示范基地系列讲座”于3月2日在坞城校区南院立信阶教301开讲。本期主题是“建设高水平学术文本数据集——学术文本数据标注质量管理实践”,主讲嘉宾是山西同方知网数字出版技术有限公司质量控制中心主任薛俊杰。信息学院副院长孙晓宁教授主持。

薛主任以学术文本数据标注面临的挑战为切入点,详细介绍了在学术数据标注过程中需要应对的结构杂、种类多、规范化、知识挖掘、高质量、速度快等的挑战。他强调了“质量的标准是由顾客需求决定的”观点,提出质量策划要设定目标、生产过程要做标准化、产品要做检验与测试。他介绍了用以提升人机协同效率的自动化学术文本数据标注流水线与智能调度平台。最后,他分享了自适应图像智能处理与基于人工智能的文献分类等核心技术,以及对于学术文本数据标注未来更加自动化、专业化、多模态、跨语言、跨文化特征的展望。他认为,在deepseek等大模型技术高速发展的背景下,越来越多的企业将参与到AI竞争中,学术文本数据标注必将出现更多AI的身影。临近讲座结束,2024级图书情报专业学生与薛主任就学术数据标注的相关问题进行了热烈讨论交流,同学们纷纷表示受益匪浅。
信息学院将以建设“数字产品产教融合研究生联合培养示范基地”为切入点,持续打造资源共享、人才共培、成果共创的研究生协同育人共同体,努力推动教育资源与社会资源的优势互补,为我省经济社会发展培养高层次专业人才。(信息学院 罗慧琴、孙晓宁供稿)
薛俊杰,硕士,出版中级职称,毕业于华中师范大学,现任山西同方知网数字出版技术有限公司质量控制中心主任。先后担任过报纸数据库编辑、报纸产品经理等职务。2017年开始一直从事数据加工质量管理工作,主导完成过多项企业标准,拥有丰富的学术数据标注与质量管理实战经验。