数据标注的基本概念

2024-03-14
  • 数据标注类(语音)MDD

    MDD即口语评测,通过精准检测句子、单词、汉字音素级别的发音。用于提高纠正人们的发音方法。

  • 数据标注类(语音)TTS

      TTS语音合成技术,将文字转为语言的技术。

  • 数据标注类(语音)ASR

       ASR自动语音识别。结合音频事件检测分句、标点、ITN(逆文本标准化)、自动纠错等方式做预处理和后处理。用于协助AI识别语义,在精准的位置打标点,顺滑语气词和多余的部分。

  • 常见的质效问题

  1. 语音类:有效性、文本、截取错误以及工具使用等;

  2. 视图类:标注框类、区域标注类、关键点类等错误;

  3. 文本类:文本筛选、关键词标注、情感标注、翻译、分词标注等错误。

  • 人工智能的学习方式

    监督学习、无监督学习、半监督学习、强化学习

  • 图像标注流程

    图像获取、图像前期处理、图像预识别、图像标注、结果输出。

  • 视频标注流程

    标注、质检、初验、终验、返修至保存退出

  • 文本标注流程

    预处理、标注、质检、验收、数据预处理、数据交付

  • 语音标注流程

    预分析语音数据、制定标注规则、设计标注平台、标注语音数据、质检语音数据、输出

  • 数据采集

    1、数据采集分类:视频、图像、语音、文本

    2、数据采集类型:结构化、非结构化、半结构化

    3、数据采集原则:全面性、多维性、高效性

  • 数据采集方案的质量衡量指标

    准确性、完整性、适用性、简洁性

  • 数据采集方案的主要内容

    确定数据源、数据采集的时间和频率、数据采集的采集、处理、储存的技术和方法、数据采集安全、数据采集交付周期、数据采集的量级

  • 常见数据采集方法

    系统日志采集、分布式订阅分发、ELT(从其他数据库整合)、网络数据采集

  • 采集数据后的数据处理方式

    1、基于特征参数的语音数据分析

    2、基于特征抽取的图像数据分析

    3、基于运动特征的视频数据分析

    4、多策略融合的文本数据分析

    5、多源数据关联集成

  • 数据清洗的主要内容

    对缺失值、异常值、重复值以及需要类型转换的数据进行处理

  • 标注规则必备特性

    渐进明细性、目的性、临时性、独特性

  • 标注规则常见问题

    规则多次修改、规则过于简陋、较多专业术语

  • 数据质检方法

    实时检查、抽样检查、全样检查

  • 数据质检流程

    质检点确认、质检人员培训、输出质检报告、解决质检问题、项目质量总结

  • 数据质检的基础术语

    质量:产品或服务满足项目特征需求

    质检量:标注过的数据进入质检池的大小

    轮次:质检同一批数据的轮次

    diff:被质检标注过错误的数据

    再质检数据:对已经质检过的数据,再次抽检

    申诉:被质检判定错误的数据,标注人发起的申诉

    数据打回:质检人对不合格数据打回重新标注

  • 数据质检的模式

    抽检:所有数据先审一轮,再随机抽检一部分数据

    全检:两轮全检

    盲审:预审一轮,抽中的数据再审1-3轮

    全审:所有数据审核2-3轮



点击空白处返回页面
扫描二维码
联系我们
扫描进入小程序
虚位以待 静候卿来