中国社会科学杂志社

首页>中国社会科学报>世界与中国

新统计工具有助于区分数据特征

2024年04月02日 10:49 来源：《中国社会科学报》2024年4月2日第2865期作者：姚晓丹

　　随着新技术的迅猛发展，数据统计与分析已经被广泛应用于商业、金融、医疗、制造业和公共管理等领域。如今，数据具有毋庸置疑的重要价值，也是知识的重要来源。但规模庞大的数据集也给相关统计分析工作带来了挑战。

　　人们可以利用主成分分析（Principal Component Analysis，PCA）筛选一些有意义的特征以解释数据差异的程度，从而展现数据的复杂性。然而，主成分分析的基本假设是所有数据源是同质的。物联网的发展带来了挑战，因为从联网车辆、传感器、摄像头、智能手表等不同来源收集的数据之间具有明显的异质性。考虑到能够用来收集数据的物品和技术越来越多，人们需要一种新的分析工具来分析异构数据，以及分析多个来源的日益复杂的数据之间有哪些异同。近日，美国密歇根大学官网发布消息称，该校研究人员开发了一种能够从不同数据集中提取可识别、可解释的数据共有和独有特征的统计工具，即个性化主成分分析（personalized PCA）。

　　研究人员提到，利用低秩表示（low-rank representation）学习技术，个性化主成分分析方法可以识别数据的共有和独有特征，更好地处理来自多个来源的复杂数据。该方法可以用完全联合、分布式的方式实现。也就是说，无需分享不同来源的全部原始数据，只需要在各客户端之间分享具有共有特征的数据。这能够加强对数据隐私的保护，降低数据传输与存储成本。

　　借助个性化主成分分析，人们可以构建起强大的统计模型，分析彼此间存在很大差异的数据，提取其共有和独有特征，并为下游分析研究提供丰富的信息。

　　研究人员利用个性化主成分分析分析了1960年至2020年的美国总统竞选电视辩论，从13个不同数据集中有效提取关键主题。这表明，使用这种方法能够辨别历次辩论共有和独有的辩论主题及关键词。

　　研究人员认为，个性化主成分分析突出了对于相关从业者而言易于解释的线性特征，进一步强化了其在新应用程序中的使用。该统计工具具有良好的统计效果，可为遗传学、图像信号处理乃至大型语言模型等领域的数据分析处理提供助力。

　　（姚晓丹/编译）

责任编辑：崔博涵

重点推荐