竞天公诚律师事务所 - 专业平等包容合作

AI+医疗系列法律问题研究（六）｜临床科研医疗数据的常见法律问题Q&A

作者：赵博嘉、范思远时间：2025-03-31

分享：

在医疗数字化进程中，临床科研医疗数据与个人就医数据共同构成医学研究的核心资源。在临床试验、队列研究、生物样本库及真实世界研究等过程中形成的临床科研医疗数据，具有结构化、标准化和多维度特征，能系统性揭示疾病规律、验证疗法效能并推动医学发展，其价值不仅体现在加速新药研发和诊疗优化上，更为公共卫生决策提供科学支撑。与之相伴而生的是临床科研医疗数据收集、使用、传输等数据处理过程中面临的诸多合规要求。本文试对临床科研数据生命周期中的典型法律问题予以探讨，以供参考。

通过临床研究获取与个人相关的医疗数据，是否必须取得个人的同意？对于医疗数据的二次开发，是否需要再次取得个人的授权同意？

A：

医疗机构、科研院所为科研、商业研究等目的开展临床研究，并非基于其法定职责或法定义务，亦非基于向患者提供医疗服务的目的，根据《中华人民共和国个人信息保护法》（“《个人信息保护法》”）的规定，不属于无需取得个人同意即可进行个人信息处理的情形范围。因此，通过临床研究获取与个人相关的医疗数据，必须取得个人的同意。实践中，基于《涉及人的生命科学和医学研究伦理审查办法》《药物临床试验质量管理规范》《医疗器械临床试验质量管理规范》等法规对于受试者参与临床试验前必须签署知情同意书的要求，一般可以将二者整合后一次性取得受试者的同意。

真实世界中，临床科研机构往往并非医疗数据处理的终点站，医药器械的申请人、合同研究组织和临床试验现场管理组织等辅助机构都可能会加入到临床科研医疗数据的生命周期中来。根据《个人信息保护法》的规定，个人信息处理者向其他个人信息处理者提供其处理的个人信息的，应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类，并取得个人的单独同意。但在AI+医疗的背景下，临床科研机构收集的医疗数据可能并非仅在既定的科研项目中一次性使用完毕，而会在未来新的研究项目中进一步发挥价值、用于二次开发，并且该等二次开发的需求方面并不一定可以使用基于完全匿名化的数据进行（以避免个人信息的授权同意）。

由于二次开发属于未来不确定的事实，个人作出首次授权同意时无法对此予以明确，对于二次开发如何获得有效的知情同意，各国进行了广泛的探索和尝试。

在境外法域中，泛知情同意在美国《共同法则》（common rule）中被引入用于可识别的个人信息或可识别的生物样本的二次研究，作为除了获得特定研究的具体知情同意和豁免知情同意两种知情同意方式之外的第三种知情同意方式的选择。西班牙对生物样本和相关信息也引入了泛知情同意，否认一揽子知情同意的合理性，同时要求生物样本库设定专门的制度，允许生物样本和信息数据存储在一个经过认证授权的生物样本库中，并在制度规定范围内使用。欧盟于2018年5月25日颁布了《通用数据保护条例》（General Data Protection Regulation，GDPR），GDPR中“同意”的基本原则与“泛知情同意”的基本原则明显重叠，GDPR中的“同意”旨在为个人提供对个人数据的控制权，“泛知情同意”允许研究对象（准确地说是数据主体）控制他们是否希望自己的生物样本和相关数据用于未来未特定的研究。[1]

我国于2016年12月1日起施行的《涉及人的生物医学研究伦理审查办法》（中华人民共和国国家卫生和计划生育委员会令第11号，“11号令”）第三十九条规定了“生物样本捐献者已经签署了知情同意书，同意所捐献样本及相关信息可用于所有医学研究的”情形下，经伦理委员会审查批准后可以免除签署知情同意书，但并未对此类知情同意细节做进一步规定。学界上对于该等“一揽子同意”的方式亦有争论，认为其不具备知情同意的基本要素，一揽子同意导致捐赠者失去了对其个人信息权益的控制，侵害捐赠者的人格尊严，要求制定完善泛知情同意制度。[2]国家卫生健康委、教育部、科技部、国家中医药局于2023年2月18日发布并施行的《涉及人的生命科学和医学研究伦理审查办法》（国卫科教发〔2023〕4号）在知情同意相关章节中仅提及知情同意书应当包括二次利用相关内容，但并未提及如何知情同意，亦未保留11号令中关于免除知情同意的条款。

基于比较法的研究，有学者总结归纳了泛知情同意的相关实施指南[3]，其中控制要点包括如下：

获取泛知情同意时应明确告知受试者，从广义而言未来哪些类型的研究中在授权的范围内。
泛知情同意应告知未来研究的可能获益，包括受试者的获益（如有）和社会的获益。
研究者应维护医疗研究数据与受试者个人身份识别信息之间联系的机密性：数据库管理人员负责通过一定的安排确保与数据链接的身份识别信息的机密性。交付统计分析的数据库中的数据必须匿名或编码，编码的密钥应由数据库管理员保存。在获取泛知情同意时必须告知潜在受试者有关拟采取的保密措施及其局限性。
针对未来使用医疗数据的研究计划的审查与批准制定相关制度，规定谁有权在未来研究中使用医疗研究数据；使用权利者的名单之外的人，在什么情况下，经过何种程序，可以申请使用这些生物材料或医疗研究数据，谁负责批准此类使用。

需要注意的是，上述关于泛知情同意的实施指南主要从医学伦理角度出发，在我国《个人信息保护法》等现行法律监管体系下，个人医疗数据可能涉及敏感个人信息，对其处理应尤为慎重，如拟对未经匿名化处理的个人医疗数据进行二次开发利用，仍需再次取得同意。我们期待国内结合境外实践经验从医学伦理和个人信息保护角度引入泛知情同意相关制度，进一步促进个人医疗数据的开发利用。

通过爬虫手段从医学文献库、医学数据库获取数据是否合规？

A：

对于已发表的医学文献，其理应受到《中华人民共和国著作权法》的保护，拥有包括但不限于复制权、信息网络传播权、改编权、汇编权等经济性权利。如通过爬虫手段未经授权爬取医学文献资料，可能构成对著作权人的侵权。公开信息显示，中国知网数据库编辑出版单位《中国学术期刊（光盘版）》电子杂志社有限公司近期曾向某AIGC公司发函，认为其通过爬虫技术链接中国知网并向其AI搜索产品的用户提供学术文献题录摘要数据的行为严重侵犯中国知网合法权益，要求其AI搜索产品停止通过爬虫技术链接中国知网，不得继续在AI搜索服务中提供中国知网学术文献题录摘要数据，断开搜索结果到中国知网的链接。

对于医学数据库中的相关数据，数据持有人就其通过劳动和其他要素贡献、经营取得的数据资源集合，拥有进行开发并获得相关利益的权利，未经授权爬取医学数据库中的数据可能被认定为构成不正当竞争行为，相关分析详见AI+医疗系列法律问题研究（二）：医疗数据交易相关法律问题探析（上篇）。国家市场监督管理总局自2024年9月1日起施行的《网络反不正当竞争暂行规定》第十九条亦明确规定：“经营者不得利用技术手段，非法获取、使用其他经营者合法持有的数据，妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行，扰乱市场公平竞争秩序。”

不可否认的是，爬虫作为收集整合网络公开信息的技术手段，一直是包括ChatGPT在内的各大人工智能模型训练的重要数据来源，如何寻找一条合规的数据爬取路径也是各国的重要研究课题。欧盟数据保护委员会（EDPB）于2024年5月发布的《ChatGPT工作组的工作报告》，亦对通过网络爬取收集数据的合法性进行了探讨，提出基于《通用数据保护条例》（“GDPR”）第6（1）（f）条为法律依据的观点。

从国内的司法实践角度看，目前对于爬虫手段的合规性分析主要基于以下三个角度：

▶爬取的数据类型

根据数据公开程度，可以分为公开数据与非公开数据。需要注意的是，对于需要用户登录才可以查看或进行分享等其他操作的数据，一般不认为是公开数据，而是归类为非公开数据或半公开数据。对于爬取非公开数据的，属于侵犯数据持有人权益的行为；对于爬取公开数据的，原则上不属于侵权行为，但应结合爬取行为的合法性等其他因素综合考虑是否构成侵权。

例如，在W公司诉Y公司不正当竞争纠纷案[4]中，北京市海淀区人民法院认为，对于非公开数据，因涉及平台商业策略的实现，数据安全的维护，以及用户隐私的保护等因素，平台经营者基于该部分数据所获得的经营利益显然系受法律保护的权益；对于平台中的公开数据，基于网络环境中数据的可集成、可交互之特点，平台经营者应当在一定程度上容忍他人合法收集或利用其平台中已公开的数据，否则将可能阻碍以公益研究或其他有益用途为目的的数据运用，有违互联网互联互通之精神。网络平台在无合理理由的情形下，不应对通过用户浏览和网络爬虫等自动化程序获取此类公开数据的行为进行区别性对待。如果他人抓取网络平台中的公开数据之行为手段并非正当，则其抓取行为本身及后续使用行为亦难谓正当；如果他人抓取网络平台中的公开数据之行为手段系正当，则需要结合涉案数据数量是否足够多、规模是否足够大进而具有数据价值，以及被控侵权人后续使用行为是否造成对被抓取数据的平台的实质性替代等其他因素，对抓取公开数据的行为正当性做进一步判断。

▶爬取数据的手段

为防止爬虫脚本在爬取数据，网站经营者可能会设置专门的反爬程序，常见的反爬措施包括IP限制、User-Agent、验证码、Cookie限制等。网站也可建立一个robots.txt文件（Robots协议）来告诉数据爬取者哪些页面可以抓取，哪些页面不能抓取，但Robots协议不是防火墙，也没有强制执行力，可能被爬虫软件直接忽略，属于对数据的弱保护。

如果爬取数据的手段绕过了网站经营者设置的反爬程序，或者违反了网站公布的Robots协议，则可能构成不正当竞争行为。

例如，在T公司诉H公司不正当竞争纠纷案[5]中，浙江省高级人民法院认为，T平台设置了反数据爬取的技术措施，在商品详情页设置Robots协议，明确表明了其保护数据不受非法爬取的意愿。同时，平台还设置了登陆验证机制、IP频率限制机制等防爬验证机制，对非法获取平台数据行为进行技术防范、监测、处置，客观上采取了技术防护手段。涉案软件采取了绕过T平台反爬措施及验证机制的技术手段，未经授权访问并复制搬运数据，破坏了T公司合法持有的数据集合的完整性、可用性，侵害其数据资源持有权益。

▶爬取获得的数据的使用方式

司法实践中通常采用实质性替代规则来判断爬取获得数据使用方式是否合规，即使网站经营者允许采集、利用目标网站上的信息，但是采集、利用的行为不能对目标网站造成实质性的市场替代，即，爬取者所提供的产品/服务与被爬取者所提供的产品/服务存在实质性替代关系，前者与后者的内容和功能同质化、导致用户不再需要被爬取者所提供的产品/服务。

例如，前述T公司诉H公司不正当竞争纠纷案中，浙江省高级人民法院认为，涉案侵权软件使得其他电商平台及其他平台内商家能够通过数据复制搬运轻而易举地直接展示T平台收集处理过的商品数据，使不具有T平台同样商品处理生成系统和算法、不掌握丰富的商品信息陈列的其他平台及商家通过“搭便车”攫取T平台本应获得的流量收益和交易机会，获得不当优势。涉案软件整体复制搬运的T平台的商品数据已然达到一定数量和规模，网络用户无须进入T平台即可获得足够信息，其他平台及商家可轻易对T平台及商家实现实质性替代，使得T公司遭受直接的经济损失，并对其依赖商品数据资源的规模性而形成的核心竞争优势造成冲击和破坏。被诉侵权行为侵害了T公司对数据资源的加工使用权益。

综上，对于拟从医学文献库、医学数据库进行大量数据爬取的研究者、人工模型训练者，如数据来源网站并未将相关数据公开并授权爬取，我们建议与网站经营者进行事先协商达成合作协议，且不能对目标网站造成实质性替代，以降低数据爬取的合规风险。

境内企业/临床科研机构与境外企业/科研机构合作开发医疗数据，是否属于数据出境？

A：

对于境内企业/临床科研机构与境外企业/科研机构合作开发医疗数据，需要根据数据的具体存储位置、是否涉及到境外服务器、是否涉及跨境传输等因素综合判断是否属于数据出境。

2022年颁布的《数据出境安全评估办法》（国家互联网信息办公室令第11号）对数据处理者向境外提供重要数据[6]、提供个人信息/敏感个人信息等情形作出了应当通过所在地省级网信部门向国家网信部门申报数据出境安全评估的规定。《促进和规范数据跨境流动规定》（国家互联网信息办公室令第16号）于2024年颁布后，对于需要数据出境安全评估的场景有了进一步的梳理和调整，包括：关键信息基础设施运营者向境外提供个人信息或者重要数据，以及关键信息基础设施运营者以外的数据处理者向境外提供重要数据，或者自当年1月1日起累计向境外提供100万人以上个人信息（不含敏感个人信息）或者1万人以上敏感个人信息，需要履行安全评估程序；在国际贸易、跨境运输、学术合作、跨国生产制造和市场营销等活动中收集和产生的数据向境外提供等场景下，不包含个人信息或者重要数据的，或者关键信息基础设施运营者以外的数据处理者自当年1月1日起累计向境外提供不满10万人个人信息（不含敏感个人信息）等情形，可以免予申报数据出境安全评估、订立个人信息出境标准合同、通过个人信息保护认证；若数据处理者属于非关键信息基础设施运营者，且当年累计向境外提供10万人以上但不满100万人的非敏感个人信息，或不满1万人的敏感个人信息，仅需订立标准合同或通过个人信息保护认证即可，无需申报安全评估；并授权自贸区自行制定区内数据出境负面清单；等等。

截至目前，天津、北京、上海、海南等自贸区（港）均已制定了相应的数据出境负面清单[7]。以北京自贸区为例，其针对医药行业从数据类型、数据规模等角度详尽地区分了需要通过数据出境安全评估的数据清单，以及需要通过个人信息出境标准合同备案、个人信息保护认证出境的数据清单，其中：一定规模以上的群体诊疗数据、涉及国家战略安全的药品实验数据等属于重要数据，与5万人以上的受试者诊疗和健康生理信息、10万人以上的患者诊疗和健康生理信息等个人信息，均属于需要安全评估的范围；1万人以上且不满5万人的受试者诊疗和健康生理信息、1万人以上且不满10万人的患者诊疗和健康生理信息等个人信息，则属于需要通过个人信息出境标准合同备案、个人信息保护认证的范围。

特别的，合作开发涉及人类遗传资源数据的，还需要国务院卫生健康主管部门的批准，仅在为获得相关药品和医疗器械在我国上市许可，在临床机构利用我国人类遗传资源开展国际合作临床试验、不涉及人类遗传资源材料出境的情形下，不需要审批，但需要在开展临床试验前应当将拟使用的人类遗传资源种类、数量及其用途向国务院卫生健康主管部门备案，否则可能面临责令停止研究、没收违法采集保藏的人类遗传资源等行政处罚风险。例如，2015年某基因科技公司因与牛津大学及国内多家医院开展“中国女性单相抑郁症的大样本病例对照研究”，未经许可将部分人类遗传资源信息从网上传递出境，遭到国家科学技术部作出的行政处罚，责令停止该研究工作的执行、销毁该研究工作中所有未出境的遗传资源材料以及相关研究数据、停止该公司涉及我国人类遗传资源的国际合作。

注释

[1]赵励彦，张玉梅，刘瑞爽《生物样本库泛知情同意在中国的实践与思考》，载于《医学与哲学》2023年44卷第16期。

[2]同注1。

[3]陈晓云，沈一峰，熊宁宁等，《医疗卫生机构泛知情同意实施指南》，载于《中国医学伦理学》2020年33卷第10期。

[4](2017)京0108民初24512号民事判决书。

[5](2023)浙民终1113号民事判决书。

[6]重要数据，是指一旦遭到篡改、破坏、泄露或者非法获取、非法利用等，可能危害国家安全、经济运行、社会稳定、公共健康和安全等的数据。

[7]包括《中国(天津)自由贸易试验区数据出境管理清单(负面清单)(2024版)》、《中国(北京)自由贸易试验区数据出境负面清单管理办法(试行)》、《中国(北京)自由贸易试验区数据出境管理清单(负面清单)(2024版)》、《中国（上海）自由贸易试验区及临港新片区数据出境负面清单管理办法（试行）》、《中国（上海）自由贸易试验区及临港新片区数据出境管理清单（负面清单）（2024版）》、《海南自由贸易港数据出境管理清单(负面清单)(2024年版)》等。