SDTMIG学习总结.docx
《SDTMIG学习总结.docx》由会员分享,可在线阅读,更多相关《SDTMIG学习总结.docx(41页珍藏版)》请在冰豆网上搜索。
SDTMIG学习总结
CDISCSDTMIG学习笔记
学习心得:
SDTM数据集与一般数据集的区别:
1.数据集个数不同
依照数据变量的不同来源分为不同的域,而一般的临床试验只有一个或少量几个数据集。
也就是数据不是依照在CRF表中的位置来收集的,而是按不同topic。
2.个人记录与事件记录
一般数据集每个人一条记录,SDTM数据集每个人的每个事件、每次用药或每次不良反应一条记录。
变量的数量减少,记录的条数增多。
也就意味着每个受试者每次访视每个时间点估计有许多条观测记录。
3.由于变量之间存在关联,因此SDTM有关联数据集
4.CDISC的重点是如何确定记录的唯一性,比如多时期多时间多剂量的试验,就需要有三个变量来区别、
5.元数据:
关于数据的数据,依照一定的标准,从信息资源中抽取出相应的特征,组成一个特征元素集合、包括描述一个具体对象所需要的数据项集合、各项数据语义定义、规则和语法定义、元数据标准的制定为提高数据库建库质量,使诗句加工达到规范化、标准化,促进科学数据标准化,加强数据交流、
6.作用:
变量名标准化,变量取值标准化
7.并不是所有的域和变量都要使用,依照研究内容来选择
Thismodel describesthecontentsandstructureof data collected duringaclinical trial
The purposeistoprovideregulatoryauthorityreviewers(FDA) aclear descriptionof thestructure,attributesandcontentsof each datasetandvariablessubmittedaspart ofa productapplication
1.域
1。
1定义:
一组具有共同主题并在逻辑上相关的观测结果集合。
Adomainisdefined asacollectionof observationsthatshareamon topic。
每个域采纳唯一的两字符(英文缩写)代码加以区别,如不良时间域(AE,AdverseEvent)
域是SDTM的核心,所有变量按不同的来源被分类到相关的域。
比如下图中展示提交的SAS数据集。
CM(conitantandpriormedication)伴随用药域、DA(DrugAccountability)药物发放回收记录域和DM(DEMOGRAPHICS)人口学资料域等。
●域名和变量名是固定不能变的。
在所有域中使用SDTM规定的变量标签
●研究中只需提交实际采集的域,具体采集哪些数据由研究内容决定,而不是基于SDTM、
●扩展内容:
假如现有的域不能满足要求,能够创建自定义域(相关内容未包括)
1.2域模型
1.2.1域能够分为五类
Special-PurposeDomains
General ObservationClass(3种Interventions,Events,Findings),
Finding about,
TrialDesign
RelationshipDatasets。
下图是SDTMvesion3、2中包括的所有域。
1、2、2域模型假设
变量名最长为8个字符
变量筛选:
每个域中有各种变量,研究者应按需要选择合适的变量、域中的变量依照需求的不同可分为必需变量(域中必须有且值不能为空)、预期变量(域中必须有但能够为空值)和许可变量(有数据才提交)
变量顺序:
关于GeneralObservationClass中的变量顺序,应先按标识变量、主题变量、修饰语变量到时间变量依次排列,每种变量类型内依照SDTM表中变量描述排序。
扩展内容:
域能够被分割,如将调查量表QS域分为临床整体印象(QSCG)、痴呆易于康奈尔量表(QSCS)和细微精神状况检查(QSMM),操作方法不详述。
受试者:
在标签或注释中将“病人”或“志愿者”统称为“受试者”。
在所有的域数据集中都应该包含唯一的标示符(USUBJID)。
一般可用:
研究编号、临床中心编号和受试者编号联接起来作为USUBJID。
文本数据大小写:
建议大写文字形式递交文本数据(假如是英文的话),长文本或标签文本及差不多是大小写的受控术语除外。
缺失值:
单个数据项缺失以空来表示,假如有-STAT变量和-REASND变量则还需在—STAT中录入NOTDONE,在—REASND中录入原因。
分类变量:
——CAT、-—SCAT、——GRPID、—-SPID、——REFID
-—CAT与—-SCAT在采集之前就已知,是固有属性,用于受试者之间分组
——GRPID通常在数据采集之后由申办者指定,受试者之内分组数据
对各受试者之间具有相同值的数据用——CAT与——SCAT,而对受试者之间具有不同值时用—-GRPID
自由文本:
其他,请说明。
P36页
一个变量的多个取值
受控术语:
一个星号*或两个星号**代表相应的变量应该被填入意义明确的一组数值(受控术语)。
一个星号表示受控术语来自申办者自定义的值,两个星号表示来自外部已出版的数据源、
●建议受控术语应大写,除了本来就是小写的或计量单位
●放入define。
xml
●不能用数字代码
每个通用观察域必须要有一个主题变量,一个时间变量
主题变量:
事件类——TERM,干预类——TRT,发现类--TEST;必须有受控术语
时间变量:
国际标准日期时间格式ISO8601
YYYY—MM—DDThh:
mm:
ss
年—月—日T小时:
分钟:
秒
0不能省略,不能有空格。
时间变量的片段名为——DTC。
●时间成分缺失:
恰当右缺失
中间缺失补充单个连字符。
不确定时间的表示
时间间隔变量——DUR
YYYY—MM—DDThh:
mm:
ss/YYYY-MM—DDThh:
mm:
ss
或者PnYnMnDTnHnMnS或PnW
确定开始时间和间隔
YYYY-MM-DDThh:
mm:
ss/PnYnMnDTnHnMnS
确定结束时间和间隔
PnYnMnDTnHnMnS/YYYY—MM—DDThh:
mm:
ss
●研究日变量-—DY
——DY=(-—DTC的日期部分)—(RFSTDTC的日期部分)+1,假如—-DTC和RFSTDTC相同或在其后
——DY=(—-DTC的日期部分)—(RFSTDTC的日期部分)+1,假如——DTC在RFSTDTC之前
●访视
关于非计划中的访视:
VISITNUM值
●相关时间变量
-—STRF和——ENRF是分别与RFSTDTC和RFENDTC比较,估计的值是BEFORE,DURING,DURING/AFTER,AFTER,ONGOING,U(Unknown)等
——STTPT参考的开始时间点,-—STRTPT表示与——STTPT相比较
●任何域的日期都应该记录在——DTC
数据标准化
——ORRES记录原始结果,但-—STAT为“未检测”或来源为衍生(——DRVFL=“是”)时,它能够为空、
——ORRES有值时,字符型变量——STRESC必须有值,——STRESC能够由——ORRES转换而来,也能够是依照——ORRES值指定的相应值
然后将——STRESC中的值转入数值型变量——STRESN
假如原始数据中含有字符,如<,>等,则字符应该复制到——STRESC中,而——STRESN则为空、
未测项目
CRF表中数据缺失,且没有对选项是/否或已测/未测作出明确选择时
假如一组检测项目未作,则相应的变量值为:
——TESTCD为-—ALL;
——TEST应为《模块名称》
--CAT应为测试组的名称
-—ORRES为空
——STAT为未测
—-REASND假如采集了,估计是标本遗失
●心电图的总体解释作为一条新纪录显示
——TEST不能超过40字符,假如超过了,能够提供其在电子CRF的链接;假如CRF表中没有,则创建一个pdf文档来储存全部文本描述、
●超过200字符的文本,前200字符存储在标准域变量里,剩下的每200字符应该在SUPP——中存储为一条记录。
变量名是在原始的标准域变量名称后面添加一个从1开始一位的整数,假如变量名差不多到了8个字符,则最后一个字符用该数字替代。
1.人口学数据域 DemographicsDM
每个受试者一条记录,DM域includesessentialstandardvariablesofeachsubject
必需变量:
STUDYID, DOMAIN, USUBJID,SUBJID, SITEID, SEX, ARMCD,ARM,COUNTRY
预期变量:
RFSTDTC,RFENDTC, AGE,AGEU
许可变量:
INVID,INVNAM,BIRTHDTC,RACE,ETHNIC,DMDTC,DMDY
变量说明
STUDYID:
研究唯一标示符
DOMAIN:
域名DM
USUBJID:
受试者唯一标示符,能够是STUDYID-SITEID—SUBJID组成
SUBJID:
受试者编号
SITEID:
研究中心编号
SEX:
性别 受控术语F(Female), M(Male),U(Unknown),UNDIFFERENTATED
ARMCD:
最长20字符,计划分组代码
ARM:
计划分组描述
COUNTRY:
国家受控术语C66785各国英文缩写,如中国CHN
RFSTDTC:
受试者第一次暴露于研究治疗的日期/时间
RFENDTC:
受试者结束试验的日期/时间,常等于最后一次暴露于研究治疗的日期/时间
AGE:
年龄
AGEU:
年龄单位受控术语 DAYSHOURSMONTHS WEEKSYEARS
INVID:
研究者标识符,假如SITEID等于INVID(一个中心一个研究者)则不需要
INVNAM:
研究者姓名
BIRTHDTC:
出生日期/时间
RACE:
人种受控术语AMERICAN INDIANORALASKANATIVE/ASIAN/BLACKORAFRICANAMERICAN/NATIVEHAWAIIANOROTHERPACIFIC ISLANDER/WHITE
ETHNIC:
族裔受控术语HISPANICORLATINO/NOTHISPANIC OR LATINO/NOTREPORTED/UNKNOW
DMDTC:
采集日期
DMDY:
采集数据研究日
假如DMDTC≥RFSTDTC,则DMDY=DMDTC—RFSTDTC+1
假如DMDTC〈RFSTDTC,则DMDY=DMDTC-RFSTDTC
●每个受试者只提交一条DM记录
●ARM/ARMCD的值必须与实验分组的数据集(TA)的一致
假如需要递交筛选失败的受试者数据,应把他们放入DM域中,ARMCD=SCRNFALL;ARM=筛选失败。
还可在Disposition实施情况域(DS)中放入一条记录标明筛选失败发生的时间。
假如没有筛选失败,但也没有分配到任何分组,则ARMCD=NOTASSGN;ARM=未分配。
●受试者水平的受试人群标志(如PLT,SAFETY,ITT和PPROT等)可放入补充修饰数据集SPPDM。
●假如是混血人种,则RACE为MULTIPLE,具体人种情况放入SUPPDM。
或者也可指定一个主要人种,其余信息放入SUPPDM。
或者采纳“其他,请说明”采集自由文本信息,则RACE值为其他,而把具体内容放入SUPPDM。
●Safetypopulationflag/randomizednumber/randomizedflag?
?
?
2.注释域mentsCO
Thementsspecial-purposedomainprovidesa solutionforsubmitting free-textmentsrelatedtodata inoneormoreSDTM domainsorcollectedonaseparateCRFpage dedicatedtoments。
ments are generallynotresponsestospecificquestions;instead,ments usuallyconsistofvoluntary,free-textorunsolicitedobservations。
CO域是为了提交与域数据相关的自由文本型注释,以及CRF表中专门的注释、
必需变量:
STUDYID,DOMAIN,USUBJID,COSEQ,COVAL
许可变量:
RDOMAIN,IDVAR,IDVARVAL,COREF,COEAL,CODTC
COSEQ:
同一USUBJID受试者不同注释的序号
COVAL:
注释的内容,超过200字则依次记录在COVAL1-COVALn中
IDVAR:
父表中用于指明注释与哪个记录相关
IDVARVAL:
IDVAR的值
COREF:
与注释相关的参考,如CRF页码
COEVAL:
注释的初始作者
CODTC:
注释表的注释时间/日期
●CO域的三个来源:
a,与特定域或记录无关联,这种情况下RDOMAIN,IDVAR,IDVARVAL值为空;b,域特定域相关联,但无关联记录,RDIMAINS值为相关域的代码,变量IDVAR, IDVARVAL为空;c,与特定记录或一组记录相关联,RDOMAINS为相关域代码,IDVAR和IDVARVAL分别为所关联的变量名和值。
3.受试者元素表SubjectElements SE
The SubjectElements dataset consolidatesinformationaboutthetimingofeach subject'sprogressthroughtheEpochsandElementsofthe trial。
SE域整合了每一受试者在试验过程中经历的各时期(Epochs)和元素(Elements)的时间信息、受试者在试验中的实际经历,
而试验设计相关的TA(TrialArm)或TE(TrialElements)域中是设计的时期和元素,并不一定是实际的。
必需变量:
STUDYID, DOMAINS,USUBJID,SESEQ,ETCD, SESTDTC
预期变量:
SEENDTC
许可变量:
ELEMENT,TAETORD, EPOCHSEUPDES
ETCD:
ELEMENT的伴随变量,8字符以内。
假如受试者实际经历的元素与计划不同,被视为新元素,ETCD=UNPLAN
ELEMENT:
元素的名称,假如ETCD=UNPLAN,则为空值
SESTDTC:
元素开始日期/时间
SEENSTC:
元素结束日期/时间
TAETORD:
受试者被分配组别内元素计划序号
EPOCH:
与受试者所分配组内的计划元素序列相关联元素的时期
SEUPDES:
非计划元素描述
●强烈建议递交受试者元素数据集
●依照定义,元素的结束日期SEENDTC值将和下一个元素的开始日期SESTDTC相同
●SE域与其他域不同,SESTDTC是必需变量,不能为空
4.受试者访视域SubjectVisit SV
The Subject Visits dataset providesreviewers withasummaryof asubject’s Visits。
parisonofanindividualsubject’sSVdatasetwith theTV dataset whichdescribestheplannedVisitsforthetrial,quicklyidentifiesmissed Visits and“extra” Visits。
受试者访视域是关于受试者访视时间,综合了分散在其他包含访视变量的域中的信息。
SV域记录的是受试者实际的访视情况,而TV(TrialVisit)域则记录的是计划中的访视。
必需变量:
STUDYID,DOMAIN,USUBJID,VISITNUM
预期变量:
SVSTDTC,SVENDTC
许可变量:
SVSTDY, SVENDY,SVUPDES
VISITNUM:
访视编号,用于排序;小数可用于插入非计划访视
VISIT:
访视名称
VISITDY:
计划访视研究日
SVSTDY:
访视开始日期相对RFSTDTC的研究日
SVENDY:
访视结束日期相对RFENDTC的研究日
SVUPDES(descriptionof unplannedvisit):
非计划访视描述
●非计划内访视应在SVUPDES中记录原因,VISITNUM用小数表示
●VISITDY是一次访视的计划的研究日,非计划访视不填
●SVSTDY是一次访视的实际的研究日,是SVSTDTC相对RFSTDTC
5.干预类
5.1既往和伴随用药ConitantMedicationsCM
Casereportform(CRF)datathat capturestheconitantandpriormedications/therapiesusedby the subject、
必需变量:
STUDYID,DOMAIN,USUBJID, CMSEQ,CMTRT
许可变量:
CMGRPID,CMSPID,CMMODIFY,CMDECOD,CMCAT,CMSCAT,CMPRESP,CMOCCUR, CMSTAT,CMREASND,CMINDC,CMCLAS,CMCLASCD,CMDOSE,CMDOSTXT, CMDOSEU, CMDOSFRM, CMDOSFRQ,CMDOSTOT, CMDOSRGM, CMROUTE,CMSTDTC,CMENDTC, CMSTDY,CMENDY, CMDUR,CMSTRF,CMENRF,CMSTRTPT,CMSTTPT, CMENRTPT,CMENTPT
CMSEQ:
序号
CMGRPID(GroupID):
组别ID,用来把一组在单独域中相关的记录捆在一起,支持域内或域间关系
CMSPID(Sponsor-DefinedIdentifier):
申办者定义的编号,比如预先打印在CRF表上的识别符或伴随药物的行号
CMTRT(Reported Nameof Drug,Med,orTherapy):
药品本名
CMMODIFY:
修正的药品名,为了便于编码
CMDECOD:
标准的药物名称,可从词典中得到,如WHODrug受控术语
CMCAT:
药物类别 受控术语
CMSCAT:
药物子类受控术语
CMPRESP(Pre-Specified):
药物是否在CRF表上预设受控术语(NY)
CMOCCUR:
预设药物是否使用 受控术语(NY)
CMSTAT:
假如预测药物未使用,则CMSTAT为NOTDONE;假如使用则为空值
CMREASND:
假如CMSTAT为NOTDONE,则描述原因,否则为空
CMINDC:
习惯症,给与药物的原因
CMCLAS(CLASS):
药物类别,受控术语
CMCLASCD(CLASSCODE):
药物类别代码,受控术语
CMDOSE:
每次用药剂量
CMDOSEU:
剂量单位,受控术语(UNIT)
CMDOSFRM:
剂型, 受控术语(FRM)
CMDOSFRQ:
期间给药频率,受控术语(FRQ)
CMDOSTOT:
每日总剂量
CMDOSRGM(doseregimen):
计划服药方案
CMROUTE:
给药途径,受控术语(ROUTE)
CMSTDTC:
开始用药时间
CMENDTC:
结束用药时间
CMSTDY:
开始用药研究日
CMENDY:
结束用药时间
CMDUR:
持续时间
CMSTRF(StartRelative toReference Period):
相关于RFSTDTC,受控术语(STENRF):
AFTER/BEFOR/COINCIDENT/DURING/(DURING/AFTER)/ONGOING/UNKNOWN、
CMENRF:
类似于CMSTRF,受控术语(STENRF)
CMSTTPT(StartReferenceTime Point):
开始参考时间
CMSTRTPT(StartRelativetoReference Time Point):
相对CMSTTPT,受控术语(STENRF)
CMENTPT(EndReferenceTimePoint):
结束参考时间
CMENRTPT(End Relative toReference TimePoint):
相对CMENTPT,受控术语(STENRF)
●CMDOSFRQ=PRN表示按需用药(As needed)
5.2暴露ExposureEX
TheExposuredomainmodelrecords the detailsof asubject’sexposuretoprotocol-specifiedstudy treatment、
暴露域记录了受试者于试验方案定义的研究治疗的细节。
必需变量:
STUDYID, DOMAIN,USUBJID,EXSEQ,EXTRT
预期变量:
EXDOSE,EXDOSU,EXDOSFRM,EXSTDTC
许可变量:
EXGRPID,EXSPID,EXCAT,EXSCAT,EXDOSTXT,EXDOSFRQ,EXDOSTOT,EXDOSRGM,EXROUTE,EXLOT, EXLOC, EXTRTV,EXVAMT,EXVAMTU, EXADJ,TAETORD,EPOCH,EXSTDTC,EXENDTC,EXSTDY,EXENDY,EXDUR,EXTPT,EXTPTNUM,EXELTM,EXTPTREF
EXDOSRGM(Dose Regimen):
计划治疗方案
EXLOT:
批号
EXDIR(Directionality):
给药部位
EXADJ:
剂量调整原因
5、3 嗜好品使用SubstanceSU
Theintentof thedomainis to capture substance useinformationthat may beusedto assess the efficacyand/orsafetyoftherapies thatlookto mitigate the effectsofchronicsubstanceuse、
这个域的目的是为了获取嗜好品的使用信息,可用于评估长期使用嗜好品对治疗有效性及安全性估计存在的作用
必需变量:
STUDYID, DOMAIN, USUBJID,SUSEQ,SUTRT
许可变量:
若干
●假如在病例报告表内嗜好品使用信息采集超过一个,那么可加入VISITNUM
V3。
2新增ExposureascollectedEC
TheExposureasCollecteddomainmodel reflects protocol-specifiedstudytreatmentadministrations,ascollected。
EC域是EX域的补充,记录E