冶金自动化

临床数据质量评估指标研究

 

1 引言

临床数据是记录临床信息的载体。数据能够准确、完整地反映所记录的临床事实,是保证数据有效利用的重要前提[1]。临床数据的质量问题会严重影响临床工作正常开展,对患者生命安全和社会经济发展造成负担[2]。美国国家卫生信息协调办公室(Office of the National Coordinator for Health Information Technology,ONCHIT)报告中指出可预防医疗错误在美国每年导致超过4万人死亡,患者数据不匹配、诊断数据缺失等数据质量问题是造成医疗错误的重要原因之一。患者数据不匹配也是35%医疗保险拒赔理由,大约每年造成医院120万美元的损失[3-4]。临床数据质量评估是通过科学手段发现临床数据中质量问题的过程,是了解和改善临床数据质量的重要环节[5]。研究者基于质量评估结果判定数据是否可用,或针对暴露的数据质量问题采取相应改善措施,提高数据质量[6]。错误或无效的评估结果可能导致数据应用事故,威胁生命财产安全。数据质量评估流程标准化有利于保证评估结果准确性与有效性,然而实现标准化质量评估面临巨大挑战。一方面,虽然多数学者对“临床数据质量是一个包含完整性、合理性等多维度的复杂概念”这一观点已经达成共识[7],但是每种维度代表哪些临床数据问题仍未达成一致。例如评估人A认为的完整性代表数据项和数据值不能缺失,而评估人B理解的完整性则可能是数据总量不能缺失。由于评估人对于质量维度的理解不一致,两人对数据质量的衡量也就不一致,导致各自评估结果互相毫无意义。另外不同研究者对质量维度的认知不一致会造成评估人没有全面理解维度包含的数据质量问题,导致评估结果无法全面反映数据质量问题。另一方面,对于每种评估问题应当采取哪种评估手段取决于评估人的经验和技术实施水平。大多数研究都根据评估人经验选择评估方法,方法适宜程度和实施效果因人而异[7],难以保证质量评估的标准化。因此为促进临床数据质量评估的标准化,首先需要对临床数据质量有准确、完善的认知,其次减少评估流程对人工的依赖,提升质量评估的自动化程度[8]。

2 相关研究

Weiskopf 等人在2011年通过文献综述,依据各维度在文献中的出现频次,得到5种高度关注的质量维度:完整性、合理性、准确性、一致性、时间性[7]。Kahn等人在2016年通过文献综述与专家讨论方式,提出包含完整性、合理性、一致性3种维度的质量评估框架。该研究中Kahn对每种维度都定义了若干评估指标。评估指标是对质量维度相关质量问题的详细描述[9]。Johnson等人也基于文献构建一套临床数据质量的本体。该本体中包含完整性、一致性、时间性、合理性4个质量维度,每个维度同样定义了若干指标[8]。Johnson描述质量评估中质量维度、实施手段等概念之间的关系及相关属性,初步描述评估指标自动化执行的思路[8]。目前研究中存在一些不足:第一,当前研究者在构建指标时考虑并不全面。例如Kahn并未将与需求相关的质量特性纳入指标体系[9],Johnson则没有考虑数据重复问题[8];第二,目前指标并未实现对一类数据质量问题的唯一定义,研究者仍会对相同指标有不同理解。第三,现有研究主要基于文献知识来构建指标。虽然文献是相关知识的可靠来源,但是指标构建缺少临床实际数据作为基础,降低指标可信度。第四,Johnson在本体中虽然描述了指标和评估方法之间的关系,但是缺少每项指标与具体实施方法之间的关联。针对以上问题,本研究通过结合文献知识与实际临床数据问题,构建相对全面的对质量评估问题进行唯一描述的数据质量评估指标,促进领域对临床数据质量理解的一致性。此外本研究依据的指标来源对每项指标所适用的评估方法进行描述,构建评估指标与具体评估方法之间的关系,为评估指标的自动化评估研究提供支持。

3 研究方法

3.1 资料收集

3.1.1 文献检索与整理 通过对国内外文献数据库进行检索来收集相关文献。对于英文文献,选择PubMed作为检索数据库以提高临床相关文献的检索相关性。以关键字"data quality","quality of data"对标题和摘要进行检索,时间限定为1998-2019年,共得到802篇文献,通过两轮筛选剔除不相关文献。首先,基于文献标题和摘要,剔除研究对象不是电子病历或医院信息系统相关数据或临床研究所收集数据的文献。对无法确定的文献进行全文阅读。本轮筛选排除267篇非相关文献。剩余535篇文献,基于标题和摘要保留同时满足以下两个条件的文献:研究内容含有数据质量维度或质量评估框架;作者对质量维度、特性提出个人观点。第2轮筛选最终排除509篇文献。对剩余的20篇文献[6-25]基于引文进行关联查询,对得到的文献采用同样流程进行筛选,最终再纳入3篇相关文献[26-28],累计得到23篇相关英文文献。对于中文文献,选择万方、维普和中国知网3个文献库。检索条件为主题中关键字为“数据质量”且摘要中包含“临床数据”,时间限定为1998-2019年。去除重复后共得到103篇相关文献。阅读文献标题、摘要,筛选其中与临床数据质量维度或特性相关的文章。对无法确定的文章进行全文阅读。经过筛选,得到4篇相关中文文献[29-32]。对其进行关联查询和筛选,发现两篇相关中文文献[33,34]以及1篇相关英文文献[35]。综上最终得到24篇英文文献、6篇中文文献。