数据智能产业创新服务媒体——聚焦数智 ·改变商业继ChatGPT以来,大模型在国内掀起了一股热潮,大有百模征战之意。而其中数据、算法、算力作为大模型训练的三驾马车,预训练数据的数量、质量、多样性成为大模型能力表现的关键性因素,数据对于人工智能领域的重要性值得我们重新审视。然而,在追求技术创新的同时,确保数据的合法性、隐私保护和伦理问题的考量也应当得到足够的重视。从目前AI大模型的发展来看,数据集的争议在近年来变得越发常见。由于大规模训练数据集对于训练强大的AI模型至关重要,数据集的来源和使用问题引发了一系列的法律和伦理争议。随着AI技术的快速发展和广泛应用,确保数据的合法和透明使用变得尤为重