本博客假定对生成式人工智能的概念、术语和技术有基本的理解。
在过去的几个月里,生成人工智能席卷了科技界。根据CB Insights的数据,2022年是对生成型人工智能初创企业的投资创纪录的一年,110笔交易的股权融资超过26亿美元。无论是与Jasper的内容创作。ai, Midjourney的图像创建,或Azure OpenAI服务的文本处理,都有一个生成式ai基础模型来促进业务的各个方面。
如何处理数据
你是否决定训练您的专有基础模型或微调和提示调谐无论是开源/商业基础模型,还是作为ISV解决方案的特定领域基础模型,您都必须采取必要的步骤来减轻潜在的数据安全和隐私风险。
一些常见的问题是:
- 我们能否通过微调或快速增强向大型语言模型(LLM)提供敏感信息?
- 法学硕士会泄露我的信息吗?
一个常见的担忧是,法学硕士可能会从你的提示中“学习”,并将这些信息提供给其他查询相关信息的人,或者用于进一步培训法学硕士。或者你通过查询分享的数据存储在网上,可能会被黑客入侵、泄露,或者更有可能的是,意外地让公众可以访问。
您必须采取必要的步骤来降低潜在的数据安全和隐私风险。
数据类型
让我们首先深入研究生成式AI服务或应用程序提供商可能处理的数据类型,如果您决定对现有基础模型进行微调和提示调整,请使用下面的示例参考图:

使用生成式AI降低风险的清单
既然您已经对数据的处理方式有了基本的了解,那么您需要检查数据是如何保留的,以及您可以使用哪些自定义控件。基本上,您需要了解如何管理作为微调或提示增强的一部分的数据共享。为了帮助解决这个问题,以下是您需要询问提供商的问题清单,并确保遵守您的公司政策,以减轻您的数据安全和隐私风险:
提供商是否支持您选择加入/退出使用您的数据来训练他们的模型?
- 根据您的用例和专有数据,请确保您选择退出,或者至少,您提供的培训数据仅用于微调您的模型,而不是由提供商用于培训或改进其任何模型。
你能删除你的训练和验证数据以及你的微调模型吗?
- 确保你能做到。
提供者是否处理数据[提示、完成和生成的结果]来训练、保留或改进他们的模型?
- 根据您的用例和专有数据,请确保您选择退出,或者在默认情况下,提供商不使用输出数据来训练或改进其任何模型。
- 不要按照提示向任何公共法学硕士提交任何私人和/或专有数据。
提示和完井数据是临时存储的吗?若"是",资料会储存多久?
- 确保它安全地存储在您操作的同一区域中,并且在逻辑上与您的订阅和API凭据隔离。
- 确保不超过“N”天,这与你的公司政策一致。
- 确保它是加密的,最好是由提供者的托管密钥加密。
数据是否与合作伙伴共享?
- 许多提供商在与合作伙伴共享数据时将数据匿名化。确保您对特定于您的用例的这一点很好,这可能对您的公司来说还不够。
谁有权限来自提供商?
- 确保只有经过授权的员工才能访问它。
提供者如何使用数据?
- 它可以用于在发生故障时进行调试和/或调查滥用或误用的模式。
- 内容过滤模型在提示输入和生成的补全上运行。
您可以选择退出内容过滤和日志记录吗?
- 如果您的用例涉及处理敏感、高度机密或受法律监管的输入数据,但有害输出和/或滥用的可能性很低,请咨询您的提供商,是否可以选择退出内容过滤和记录。
- 提供商批准退出后,请确保他们不存储与已批准的订阅(滥用监控已被配置为关闭)相关的任何提示和完成。在这种情况下,因为没有任何提示和完成被静态存储,所以没有任何提供者员工可以访问您的数据,即使是在有限的时间内。
提供者是否记录模型的使用并支持您的遵从性需求的可追溯性?
- 确保他们这样做。
如果您的用例需要创建一个专有模型,这意味着您要训练您自己的模型,那么您可以在内部训练模型,或者与支持训练新专有模型的模型提供者合作。如果与模型提供商合作,除了选择VPC进行培训和托管模型之外,请确保遵循上述相关清单,并确保遵守公司政策,以减轻数据隐私和安全风险。