数据隐私保护指南

隐私保护基本原则

数据隐私保护应当融入产品设计的每个环节，而非事后补救。隐私设计（Privacy by Design）的七项原则：主动预防而非被动补救、默认隐私保护、内置隐私而非附加、全功能正和、全生命周期保护、可见透明和以用户为中心。

数据最小化原则要求只收集实现业务功能所必需的最少数据。如果不需要用户的真实姓名，就不要要求填写；如果不需要位置信息，就不要请求定位权限。

企业应建立数据分类分级制度。将数据分为公开、内部、敏感和严格受限四个等级。不同等级采用不同的保护措施：敏感数据和严格受限数据加密存储、脱敏展示、严格控制访问权限。

个人信息识别：根据法规，个人信息包括直接标识符（姓名、身份证号）和间接标识符（IP地址、设备指纹、行为轨迹）。任何可以关联到特定自然人的数据都属于个人信息范畴。

传输加密：所有涉及个人数据的网络传输使用TLS 1.3。内部服务间通信也应启用mTLS。

存储加密：数据库使用透明数据加密（TDE）。敏感字段使用应用层加密：AES-256-GCM加密，密钥与数据分离存储。密钥管理使用KMS服务，支持自动轮换。

假名化与匿名化：假名化使用Token替换真实标识符，但可以通过映射表还原（适用于分析和开发环境）。匿名化彻底消除识别可能性，是不可逆的（适用于数据发布和统计）。

GDPR要求数据控制者获得用户明确、具体、知情的同意。同意必须是主动的（不能是默认勾选），用户有权随时撤回。数据可移植权要求用户能以结构化、通用格式导出其数据。被遗忘权要求在一定条件下删除用户数据。

中国《个人信息保护法》（PIPL）于2021年生效。核心要求：处理个人信息需告知目的和方式并取得同意；重要互联网平台需设立独立机构监督个人信息保护；向境外提供个人信息需通过安全评估。

差分隐私：向统计数据添加受控噪声，使个体数据无法被推断。Apple和Google使用差分隐私收集使用统计数据。

联邦学习：模型训练在用户设备本地完成，仅上传加密的模型参数更新，原始数据不出设备。适合手机输入法预测、健康数据分析等场景。

数据脱敏系统：在生产数据库基础上构建脱敏数据副本，用于开发和测试。脱敏规则包括替换（真实姓名替换为随机姓名）、遮蔽（手机号中间四位显示为*）和泛化（精确年龄替换为年龄段）。