胸部CT肺结节数据集构建及质量控制专家共识全文.docx
《胸部CT肺结节数据集构建及质量控制专家共识全文.docx》由会员分享,可在线阅读,更多相关《胸部CT肺结节数据集构建及质量控制专家共识全文.docx(11页珍藏版)》请在冰豆网上搜索。
胸部CT肺结节数据集构建及质量控制专家共识全文
2021年胸部CT肺结节数据集构建及质量控制专家共识(全文)
摘要
基于人工智能的肺结节辅助诊断、辅助检测对于肺癌早期筛查具有重要意义。
由于当前产品通常采用监督学习,研发与测试过程需要高质量的胸部CT肺结节数据集。
目前,此类数据集的构建和质量控制尚未建立具体的技术规范,业内处于探索阶段。
随着人工智能医疗器械标准化的推进,关于数据集通用要求的标准正在起草。
为促进产业发展、推进标准化进程,本文以训练集为案例,提出了胸部CT肺结节数据集的构建流程,包括数据采集、数据标注等环节。
同时,本文解释了该类数据集质量特性的表现形式,提供了质量控制思路。
本文旨在为数据集制造责任方提供参考路线,保障数据资源的有序供给,促进肺结节人工智能产品的研发生产。
近年来,国内外多种人工智能(artificial intelligence,AI)算法致力于解决肺结节检出、分类、分割等热点问题,辅助医师快速精准地发现并诊断肺结节,从而对肺结节的早期发现、早期诊断、早期治疗提供辅助解决方案。
由于目前的AI辅助诊断、辅助检测大多采用监督学习,产品的研发、测试、质量控制均需依托大量的标准检查病例,因此监管机构、医院、企业、教育科研机构等相关方(后称数据集制造责任方)均在积极建设胸部CT肺结节数据集(以下简称为数据集),从而对肺结节AI产品研发上下游需求形成支撑,以促进临床使用。
目前国际公认、开放的胸部影像公共数据集为肺部图像数据库联盟数据集(thelungimagedatabaseconsortiumandimage databaseresourceinitiative,LIDCIDRI)。
但这些数据库的肺结节均偏大,且以实性结节为主,而我国肺部磨玻璃结节的检出率明显高于国外,故这些国外公共数据库难以代表我国人群肺结节的分布特征和结构特征。
目前国内数据集的发展还处于“各自为战”的状态,且数据质量参差不齐,容易影响产品质量,甚至带来风险。
因此,数据集的建设需要科学引导,质量和风险控制显得尤为重要。
为规范AI医疗器械使用的数据集质量,我国起草了医疗器械行业标准《人工智能医疗器械质量要求和评价第2部分:
数据集通用要求》,已经进入报批阶段。
为了指导包括肺结节辅助诊断、辅助检测产品在内的AI医疗器械的审评审批,国家药品监督管理局医疗器械技术审评中心发布了《深度学习辅助决策医疗器械软件审评要点》以及《肺炎CT影像辅助分诊与评估软件审评要点(试行)》等技术指导文件。
在此背景下,本文以肺结节数据集构建及质量评价的具体问题为导向,以封闭式训练数据集为例提出指导意见,对于肺结节AI产品相关的数据集建设和质量管理给予示范及引导,有助于全社会有序挖掘医学数据资源,促进AI产业协调发展。
一、数据集描述
(一)数据集基本信息
参考“卫生信息数据集元数据规范”的定义方式,本文将胸部CT肺结节数据集定义为:
以胸部CT肺结节为主题,可以标识并可以被计算机化处理的数据集合。
根据医疗器械行业标准《人工智能医疗器械质量要求和评价第2部分:
数据集通用要求》的征求意见稿,数据集按照预期用途、数据来源、用户类型、访问管理方式、更新形式等维度,可分为不同类型。
数据集建设者需要预先明确数据集的类型,因为它在某种程度上决定了数据集建设、管理的严格程度。
本文所讨论的数据集,主要针对基于私有数据构建,用于胸部CT肺结节模型训练的自用、封闭、静态数据集。
自用指的是不提供给其他机构使用。
封闭指的是本机构内部封闭,仅供特定人员使用,尤其注意不能与产品的测试环节存在交叉。
对于该类数据集,建议对数据采集、预处理、标注、存储、更新等环节建立规程和记录,进行体系化管理,应保证数据访问踪迹和数据变更踪迹的可审计性。
访问数据集需要授权,具体权限分配由数据集制造责任方自行定义。
建议数据集在本地存储,采用备份、容灾等必要措施,防止数据的意外损失。
根据我国目前临床需求与AI产品技术特点,本数据集的影像数据格式为医学数字成像和通信(digitalimagingandcommunicationsinmedicine,DICOM),数据来源包含体检、门诊、住院、急诊和科研等不同场合获取的真实受试者图像,也包括基线扫描、随访、预后等不同阶段的图像。
根据产品研发的需要,可采集其他临床信息,如病理数据、临床检验数据、基因数据等,以配合良恶性分类、病理亚型分类、基因突变、预后预测等产品预期用途的实现。
采集图像的影像设备、设置参数、对比剂剂量能够代表不同地区不同条件的实际水平。
本数据集适用于肺结节AI产品的训练,产品预期用途为辅助诊断、辅助检测、辅助测量、辅助分诊等,如对肺部结节进行检出、分类、分割和定位;对结节最大长径进行测量;对结节生长速度进行测评;对CT图像能够发现的其他呼吸系统疾病或正常组织的变异给出提示;以及多模态数据、组学数据的融合分析等。
肺结节数据集的标注对象包括肺内实性结节、肺内亚实性结节(包括肺内混杂磨玻璃密度结节、纯磨玻璃密度结节)、肺内钙化结节、胸膜结节与胸膜斑块、胸膜钙化结节。
其中肺内实性结节、肺内亚实性结节、肺内钙化结节属于肺结节,胸膜结节与胸膜斑块、胸膜钙化结节属于胸膜病灶。
同时,数据集制造责任方可根据产品预期使用的人群、地区、流行病学特征,对其他生理异常或病变进行标注,作为算法训练的标签。
肺结节训练数据集的元数据应记录数据集名称、标识符、数据集发布方、数据集语种、数据集分类类目名称、数据集摘要等信息。
适当时,数据集制造责任方应记录每个数据集的版本、注册机构、分类模式、主管机构。
(二)数据采集
1.伦理批准与患者隐私保护:
肺结节胸部CT数据集,应使用通过伦理批准或者豁免的临床脱敏数据。
包括原始图像,用于统计用途的年龄、吸烟史、居住地等流行病学信息,以及其他相关的临床数据、信息资料等。
患者的知情权、同意书、补偿应当满足法规的要求。
2.数据脱敏、清洗、查重要求:
(1)数据脱敏:
数据脱敏是保护患者隐私的技术手段。
图像本身、头文件、附属文件,以及数据集的元数据中均不应包含与患者隐私有关的任何信息;伦理批件或其他官方批件应当真实合规。
从志愿者、体检中心、社区筛查项目、科研项目等其他途径获取的图像应当通过同等效力的批准程序保证数据脱敏、患者隐私安全和患者利益。
患者个人信息、医保信息、活动轨迹、社会经济状况、家庭情况、财务信息等个人隐私不得搜集和显示。
图像头文件中涉及患者隐私的字段必须进行脱敏处理。
数据的采集、传输、保存和使用必须符合《中华人民共和国网络安全法》《科技部人类遗传资源管理办法》和原国家食品药品监督管理总局《医疗器械网络安全注册技术审查指导原则》等法律法规的要求。
数据集制造责任方应解析序列DICOM文件中的标签(tag),检查各个字段并去除敏感信息或隐私信息,尤其是一些重要的共有字段,例如:
机构名称(InstitutionName)0x00080080,机构地址(InstitutionAddress)0x00080081,患者姓名(Patient Name)0x00100010,患者生日(PatientBirthDate)0x00100030,患者地址(PatientAddress)0x00101040。
(2)清洗:
数据清洗的目的是对数据进行检查和确认,去除不合格数据,筛选满足质量要求的数据。
图像的质量要求一般包括格式的有效性、单个文件的完整性、序列的完整性、图像内容的合理性等。
例如不符合DICOM标准的图像、破损或无法读取的图像、不连续的图像序列、与肺部无关的序列都是应去除的对象。
数据集制造责任方可根据需要,制定更具体的图像质量要求,如峰值信噪比等指标。
图像清洗应当建立规程,形成操作记录。
(3)查重:
数据查重的目的是保证数据的唯一性。
图像数据不应与其他公开数据集发生重合;同一批数据内部不得出现图像重合;所有病例应当真实唯一。
在原始数据入库处理的过程中,数据集制造责任方可针对DCM文件解析得到序列号和图像实例编号的tag值,与数据集内部和其他公开数据集进行比对,也可以采用消息摘要算法等其他信息进行比对。
若发现重复,则对此部分数据进行记录和封存,从数据集中排除。
3.数据采集与多样性要求:
数据集应当使用标准DICOM格式的医院原始数据,图像矩阵不低于512×512。
数据集制造责任方应确保脱敏后原始数据的完整性,避免有损压缩、篡改图像等操作。
每个病例的图像应当保持连续完整,不得出现缺层、错层等情况。
每个病例的扫描范围至少从肺尖到肋膈角(包括全部肺),不相关的部位可以删除。
图像视野应当覆盖整个肺部横截面。
成像过程应当符合相关临床规范和专家共识,患者吸气末一次屏气完成扫描,避免运动伪影、误操作等。
成像过程使用的设备应当在有效期内,并做好日常质量控制和期间核查。
作为训练集,本数据集应具有充分的多样性,以提高算法模型的泛化能力和鲁棒性。
由于不同地区、不同的临床机构在人群组成、流行病学特征、数据采集设备、操作等方面均可能存在差异,为保证数据集的多样性,在数据采集阶段需要尽可能地覆盖到更多具有通用性的统计维度,同时降低数据集的覆盖偏倚。
这些维度包括以下。
(1)患者维度:
主要应考虑患者的年龄、性别、地区、习惯(例如吸烟史)等因素,这些因素与肺癌风险和肺结节的检出存在联系,因此对于数据集的临床代表性有重要影响。
从操作层面来说,数据的采集应当在不同地区不同省市选择有代表性的医院。
患者人群分布应参考流行病学统计进行均匀随机抽样或按Zheng等研究(根据临床上高发年龄段分布,18~45岁抽样25%,46~65岁抽样50%,≥66岁抽样25%;性别比为1∶1)的形式进行分层抽样。
(2)场所与设备及数据采集技术标准:
采集图像的场所,应考虑体检、筛查、门诊、住院等不同场境。
体检、筛查病例占总例数的40%(低剂量平扫CT,吸收剂量≤1.5mSv),门诊、病房病例占总例数的60%(常规剂量平扫或增强,吸收剂量>1.5mSv)。
设备方面主要应考虑CT制造厂家、CT型号、同一台设备的不同成像参数配置(如层厚、层间距、剂量设置、重建算法等),这些因素影响图像的对比度、分辨率、信噪比、细节丰富程度等基本参数,同时也会影响医师的标注或读片结论,如对肺结节的检出、分类、测量等。
从操作层面来说,可以依据表1的参数范围进行选择。
(3)病种维度:
即各病种的数量和比例。
作为对真实临床数据的抽样,数据集的数据容量决定了抽样误差。
抽样误差越小,数据集越有代表意义。
关于抽样误差的计算,可以参照原国家食品药品监督管理总局发布的《医疗器械临床试验设计指导原则》给出的方法进行计算,在条件允许的情况下尽量提高样本量。
该方法的本意是用于保证临床试验的总体容量和各个病种、子集的容量满足抽样误差的要求,使临床试验能够对于真实的灵敏度、特异性等指标进行更精确的估计。
根据《医疗器械临床试验设计指导原则》,对于统计分类问题,其评价指标一般包括灵敏度和特异度,用灵敏度计算阳性组的样本量,用特异度计算阴性组的样本。
阳性组/阴性组样本量的估算公式为:
n =
,其中n 为阳性组/阴性组样本量,Z1α/2为标准正态分布的分位数,P为灵敏度或特异度的预期值,Δ为P的允许误差大小(即数据集的抽样误差),一般取P的95%CI宽度的一半,常用的取值为0.05~0.10。
考虑产品研发和学术研究领域实际情况,建议抽样误差不超过5%。
以上公式适用于二分类和多分类问题。
由于肺结节各类型的患病率尚未获得全国的流行病学统计,数据集的建设可依据各机构掌握的先验数据设计病种的比例,可进行均匀随机抽样或按结节类型和长短径分布进行分层抽样,并按照表2的形式描述数据集实际的结节分布。
4.数据标注信息:
数据标注质量、标注的全面性、标注体系的统一及标注过程的质量控制体系都会直接影响到AI模型的临床可靠性,而制定出一套科学的标注管理体系既需要严格的质量管理办法,更需要专家的持续参与,才能保证生产出合格的数据标签供AI训练。
本数据集标注内容包括胸部CT肺结节检出、分类和分割。
具体肺结节的标注方法可参考《胸部CT肺结节数据标注与质量控制专家共识(2018)》。
(三)数据样本溯源信息记录
为了方便数据管理、提高样本的可追溯性,建议对数据样本或存放每个影像序列的文件夹建立唯一标识,便于记录溯源信息。
具体技术要求可参照医疗器械行业标准《医疗器械唯一标识基本要求》。
对单个影像文件,唯一标识可采用的字段举例如图1,其信息应与原始文件形成映射关系,便于检索和预览。
当数据发生更新时,二者保持同步。
唯一标识的编码方式应当进行校验,以保证整体或组成部分的正确性。
表1 胸部CT肺结节数据采集的设备与配置
表2 胸部CT肺结节数据采集实际的结节分类及比例
注:
肺结节长径定义为结节内最大横截面空间最远两点距离
二、数据集质量评价
为保证数据集的质量,数据集制造责任方应对数据集开展质量评价和风险分析,形成研究资料,作为后续管理与使用的客观依据,并参考医疗器械行业标准《人工智能医疗器械质量要求和评价第2部分:
数据集通用要求》(报批稿)。
具体的质量特性与评价方式举例说明如下:
1.准确度:
准确度的字面含义是指样本符合真值的程度,在不同的情境下存在多种含义。
对医学影像的溯源而言,真值包括成像部位的生理解剖结果、临床诊断的金标准等形式;对数据采集活动而言,医院本地的原始数据、记录、患者原始的口述等可纳入真值的范畴;对数据标注活动而言,符合临床规范或专家共识的标注结果、参考标准也可以看作真值。
对肺结节数据集而言,医学溯源的限制较多,例如不能对所有患者、所有结节都进行活检。
因此,对准确度的考量需要考虑可行性,关注过程要素和辅助证据,例如对CT设备的有效性、人员操作的有效性进行检查,对影像报告、检查报告、标注结果的正确性、数据形式的合理性进行抽查。
在条件允许时,可以使用体模对设备和人员操作进行过程验证。
适当时,对影像标注准确度的抽查建议由专业的第三方医学专家团队进行,第三方团队的资质、从业年限、检查流程和分歧处理应有明确的要求。
肺结节数据集的抽样检查可以将肺部CT序列作为基本单元,例如先计算每个序列的准确度,进而对整个数据集的准确度进行统计估计,因而适合采用计量型抽样检验方法。
2.完备性:
肺结节训练数据集应包含支持产品训练、满足临床适用场景需要的信息,例如结节类型、位置、边界、长短径,成像设备型号、设备厂家、管电压、管电流、剂量等;以及伦理批准使用的非敏感信息,例如受试者年龄、性别、良恶性分类、病理亚型分类、基因突变、预后等。
数据集制造责任方可制定具体的信息列表,对信息完备性进行抽查。
由于每个肺部CT序列都可以明确其是否具有完备性,因此可使用计量型抽样检验方法。
3.唯一性:
如数据清洗部分所述,同一数据集内的数据元应是唯一的,可沿用数据查重的方法进行评价。
本部分同样适合计量型抽样检验。
4.一致性:
由于肺结节训练数据集通常从多个地区、不同机构采集数据,有必要对其一致性进行考量,防止出现混乱。
一致性可分为内部一致性与外部一致性。
内部一致性是指相同来源数据之间的相关性,例如来自同一医院、同一时段的数据在成像参数、成像设备等方面的相关性,也包括同一个序列在数据清洗、标注等各个环节的一致性(保持不变)。
外部一致性是指不同来源的数据在某一特性方面的相关性,例如来自不同体检机构、低剂量的CT序列应具有相似的剂量范围。
一致性的计算可选择多种参数,以受试者为单元,适用计量型抽样。
5.确实性:
确实性的含义是数据、元数据的真实可信性。
对肺结节数据集而言,肺部生理结构、影像征象、长短径、位置、DICOM字段内容应符合临床常识,对离群值应进行排除,例如错误引入动物实验数据、DICOM记录剂量的量级异常等情形。
对确实性的评价可采用计量型抽样检验。
6.时效性:
从质量管理的角度看,数据的采集、标注、流转、归档、变更等活动应遵从明确的时限,以保证数据集符合当前的医学认知和产品开发需求,因此时效性也是数据集建设的重要指标。
时效性的评价需要从数据集的过程记录中提取时间信息,计算实际时限,其符合性属于计数型抽样检验范畴。
7.可访问性:
肺结节训练数据集可被访问的程度应满足模型训练的需要和临床适用范围。
可访问性的评价包括对数据访问方式、访问控制的评价,以实际操作为主。
例如,可按照数据集制造责任方的访问控制策略,尝试以不同身份访问训练集,验证授权机制,并且查看允许访问的信息量是否能支持算法训练、是否能体现临床场景。
8.依从性:
依从性指的是数据集开发过程依从于某些技术标准、医学规范、专家共识、操作规程等文献。
这些文献应体现在数据集的文档描述中,因此对依从性的评价需要对数据集文档进行检查。
9.保密性:
由于肺结节数据集来源于受试者数据,数据集制造责任方需要对数据集的保密性负责,建立必要的机制,防止数据泄露、数据篡改、数据丢失等问题的发生,形成相关记录。
对保密性的评价可采用过程验证、文件记录审核等方式进行。
10.资源利用性:
资源利用性描述的是数据集的用户调用数据集的速度,体现了数据集作为一种“产品”对使用环境的要求。
资源利用性的评价可以采用在数据集制造责任方规定的软硬件与网络环境下,实际读取、传输数据集,验证操作的时间。
11.精度:
精度在这里描述的是肺结节影像数据定量特征、数据集总体定量特征、肺结节标注结果等误差大小的程度,例如肺结节长短径测量的精度可用像素数或毫米来表述。
对精度的验证可以采用比对试验、工具验证等方式实现。
12.可追溯性:
可追溯性指的是在肺结节数据集的全生命周期,数据集制造责任方宜保证数据访问踪迹和数据变更踪迹的可审计性。
可追溯性的评价主要通过对文档和记录进行检查,如原始数据来源、元数据来源、合规性证明、数据采集活动记录、标注人员选拔与培训记录、数据标注流程记录、标注工具使用记录等。
13.可理解性:
可理解性指的是肺结节数据集能被授权用户预览和解释的程度,例如能否将肺结节标注结果直观地呈现在原始图像上,供用户理解。
对可理解性的评价主要通过实际操作进行,可能需要数据集制造责任方提供相关工具。
14.可得性:
可得性指的是数据集能被授权用户访问和检索的程度,例如数据能否复制粘贴、建立索引、由算法模型调用。
对可得性的评价同样通过实际操作进行。
15.可移植性:
可移植性指的是数据能被存储、替换或从一个系统转移到另一个系统并保持已有质量的程度,与数据、元数据的存储格式、编码有关。
如果数据集制造商需要在不同操作系统、存储环境中使用肺结节数据集,可通过实际操作验证数据集的可移植性。
16.可恢复性:
从数据安全的角度考虑,肺结节数据集在使用过程中宜保持质量,适当时能够抵御失效事件,称为可恢复性。
对可恢复性的评价可通过模拟失效事件、实际操作验证。
17.代表性:
当数据集建成后,其数据特征层次、流行病学统计、样本来源多样性、数据多样性等应能代表预期的受试者人群,称为代表性。
数据集制造责任方需要对这些维度进行统计分析,适当时与流行病学统计进行比较,以论证数据集的代表性。
此外,建议数据集制造责任方评估数据集的整体质量风险,例如各种统计偏倚情况,可借鉴行业标准《YY/T03162016医疗器械风险管理对医疗器械的应用》的方法开展风险管理活动,把数据集的偏倚列入风险分析的对象。
此外,也可采用专家评议法,设计问卷,由第三方医学专家组对数据集质量进行评议,对偏倚进行分析,形成研究资料。
综上所述,肺结节数据集的质量评价应包括对数据集文档、质量特性和数据集整体的评价。
参照医疗器械行业标准《人工智能医疗器械质量要求和评价第2部分:
数据集通用要求》(报批稿),评价流程如图2所示。
适当时,数据集制造责任方应提供数据集、原始数据、元数据、标注工具、存储介质和其他工具的访问权限。
图1 唯一标识字段命名字段示例。
该示例从大到小排列,可以识别的信息包括图像采集的单位、患者编号(脱敏后)、文件所在序列的检查顺序、文件所在的检查序列、文件在序列中的顺序,从而实现对单一影像文件的溯源。
数据集制造责任方可以参照补充其他字段,丰富标识信息。
各字段之间可用“”作为数据分隔符,帮助正确识读和解析各个字段
图2 数据集质量评价流程图
三、小结
近年来,随着相关技术的快速发展,AI在医疗领域的应用也在快速推广,其中包括医学影像、临床决策支持、病例分析、语言识别、药物挖掘、健康管理、病理学等众多场景。
全国各大医院也在积极开展有关肺结节的AI研究与合作项目,众多三甲医院已经启动关于肺结节的AI技术试点和临床试验工作。
根据最新的调研报告,国内医学影像领域有88%产品聚焦在肺结节筛查,可见肺结节在AI产品中的热度很高。
医学影像数据的数量和质量决定了AI模型学习的结果。
高质量的数据库必须同时满足多个要求:
数量巨大、来源多样、质量优异、标注规范、标注标准统一等。
肺结节数据集作为肺结节AI产品训练和测试不可或缺的重要组成部分,扮演着举足轻重的角色,也是可靠AI产品的重要保障。
本共识会根据技术升级和临床实际情况不断迭代更新,逐步达成该领域数据集建设的广泛共识。