填補真實數據的不足,同時應對數據稀缺和隱私問題。
到2024年,60%的數據用于開發AI和分析項目將綜合產生。
以上是研究機構Gartner的最新預測。
它指出,許多公司已經開始使用合成數據來訓練AI模型,填補真實數據的不足,同時應對數據稀缺和隱私問題。
去年11月,一篇發表在Nature雜志上的研究也表明使用合成數據替代真實醫療保健數據的有效性。

合成數據和表格合成數據
何為合成數據(Synthetic Data)?
它是通過算法、統計模型或生成人工智生成的數據,而非真實的觀測數據。
為了生成一組合成數據,需要通過算法分析原始數據從而得到原始數據中的特征分布、特征之間的關聯以及特征規律等要素,再進行生成。
總的來說,合成數據具有以下優勢:
- 可控性強:可根據需要控制數據的生成規則、分布特征等 ,控制合成數據部分特征;
- 數據量大:可快速生成大量的數據;
- 隱私保護:不涉及真實個人信息,避免隱私泄露的潛在風險。
那么,何為表格合成數據(Taublar Synthetic Data)?
表格合成數據是結構化的數據,具有明確的列和行,適用于需要處理大量結構化數據的情況。
相比之下,其他合成數據可能是非結構化的文本、圖像或音頻數據,處理起來更為復雜。
表格合成數據可以更容易地模擬真實世界中的業務場景和數據分布。
實際業務中,許多公司需要處理大量的結構化數據,如銷售數據、客戶信息、財務報表等。通過使用表格合成數據,這些公司可以更快地構建和訓練AI模型。
為何使用合成數據?
在數據驅動的時代,真實數據在數據分析應用中的價值和效果是顯著的,但收集真實數據不僅費時費力,而且成本高昂。
另外,使用真實數據進行分析并公開結果可能引發數據泄露問題,甚至法律糾紛等問題。
即使數據經過脫敏處理,現代攻擊手段如數據推斷攻擊、數據重構攻擊等仍可能恢復出敏感信息。
來自哈工大(深圳)數據安全研究院的研究人員注意到,通過使用合成數據就是一種規避手段。在某些情況下,它比現實世界中的同類產品更安全、更便宜、同樣有效:
首先,更安全。
合成數據不存在現實世界數據的錯誤或隱私泄漏問題,可以自由共享且不會損害用戶隱私
其次,更便宜。
合成數據還可以定制化地按照規則進行大規模生成。
再者,同樣有效。
來自數據安全研究院的研究人員創建了一組開源組件(合成數據生成器,SDG),并由研究院的數據科學家、工程師研發了一系列配套的算法,研究人員發現,在超過80%的實際測試中,合成數據可以媲美真實數據的效果。
表格合成數據的典型應用場景

合成數據的有以下典型應用場景:
數據集不平衡:通過控制合成數據的標簽、特征比例,可以有效解決數據不平衡問題;
數據脫敏:傳統數據脫敏場景中,采用遮蓋方法屏蔽關鍵信息,會顯著降低數據質量,且仍存在隱私泄漏風險,使用數據合成技術替換脫敏技術,可以有效提升數據質量,并規避隱私風險。
政務數據開放:和數據脫敏場景類似,合成數據可以最大限度避免數據開放所帶來的隱私泄漏風險。
AI模型訓練:合成數據已經大量用于AI模型訓練,用于應對數據的不足,數據稀缺,隱私等問題。
業務系統測試:合成數據可以模擬真實數據的情況,幫助測試人員在不接觸真實數據的情況下進行測試,提高測試效率和準確性。
專用于表格數據合成的開源組件
合成數據生成器(Synthetic Data Generator,SDG)是由哈工大(深圳)劉川意教授團隊開源的一款專注于結構化表格數據快速生成的組件。目前在GitHub上關注度已有1.8K stars,并已有多位Contributor。
SDG支持多種模型,并針對執行速度、內存等方面進行專門優化,例如:合成數據生成器處理千萬級別數據,這是當前其他數據合成組件做不到的。

此外,合成數據生成器還集成了使用大模型的仿真技術生成模型,通過學習原始數據或者表格的元數據,LLM模型能夠生成符合自然世界基本特點的數據表,與現有模型相比,這種方法支持無原始數據的合成數據生成,不需要進行繁瑣的特征工程,僅憑原始數據表格的元數據(metadata)來快速生成數據表,節省了大量的時間和人力成本。
其示例如下圖所示:

此外,合成數據生成器還支持表外特征的自動推斷,通過學習數據表的元數據和用戶提供的表外特征信息,大語言模型根據數據表的元數據和其所掌握的知識,生成高質量的表外特征數據。
例子如下:

合成數據生成器團隊還將持續維護組件,保持對工業界、學術界的最新情況追蹤,適時增加新的模型;同時會根據Issue 以及實際業務需求情況,持續添加新特性以滿足業務要求。
下一步,團隊將進一步推出基于大模型微調的數據合成模型。
SDG使用Apache-2.0開源協議,并設有微信技術交流群和 Slack 交流群,歡迎開發者進行使用、反饋,提出建議。
項目源碼:https://github.com/hitsz-ids/synthetic-data-generator/tree/main
項目網站:https://sdg.idslab.iot
本文鏈接:Fake It until You Make It:數據合成技術,LLM時代的「血液提供商」http://www.sq15.cn/show-2-4824-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 清華率先發布首份汽車行業大模型白皮書