最近,浙江大学和阿里巴巴达摩院联合发布了一项创新研究,旨在从教育视频中生成高质量的多模态教材。这项研究不仅为大规模语言模型(VLMs)的训练提供了新的思路,还可能改变教育资源的利用方式。随着人工智能技术的迅速发展,VLMs 的预训练数据主要依赖于视觉-文本对和视觉交织的数据。然而,目前这些数据大多来自网络,其中文本与图片之间的关联性较弱,知识密度相对较低。
最近,浙江大学和阿里巴巴达摩院联合发布了一项创新研究,旨在从教育视频中生成高质量的多模态教材。这项研究不仅为大规模语言模型(VLMs)的训练提供了新的思路,还可能改变教育资源的利用方式。随着人工智能技术的迅速发展,VLMs 的预训练数据主要依赖于视觉-文本对和视觉交织的数据。然而,目前这些数据大多来自网络,其中文本与图片之间的关联性较弱,知识密度相对较低。