以DeepSeek为例：大模型应用于多模态数据分析有多强（文末送书）

巴川等 2025-08-29 09:46:00

作者介绍

巴川，资深数据科学家，曾就职于中国搜索、搜狐畅游、竞技世界等互联网公司。主要研究领域包括数据挖掘、人工智能、知识图谱、精细化运营、风控体系等。

李慧，资深数据分析挖掘工程师，硕士毕业于北京航空航天大学，曾就职百度。

钟宇周，硕士毕业于北京大学光华管理学院，曾就职于竞技世界、阿里巴巴，目前为快手主站数据分析师。

叶心函，资深数据分析挖掘工程师，硕士毕业于中国科学院大学，在AI、风控和知识图谱等领域有丰富的多模态数据分析经验。

多模态数据涵盖文本、图像、音频、视频等多种类型的数据，其丰富性为深入洞察数据背后的信息提供了广阔空间。传统的数据处理、融合与分析方法在面对多模态数据时存在诸多局限性，而大模型的出现为多模态数据分析带来了新的契机。下面将深入探讨大模型如何在多模态数据处理、多模态数据融合与分析过程中发挥关键作用，并通过实际案例对比展现其相较于传统方法以及机器学习、深度学习方法的显著优势。

大模型助力多模态数据处理

在多模态数据处理中，传统方法对不同模态数据往往采用独立的预处理流程。

以图像和文本数据为例，图像数据的处理较为复杂，首先要进行降噪操作，去除图像采集过程中引入的噪声干扰，这通常需要使用高斯滤波、中值滤波等算法。接着，为了满足后续模型输入的要求，需要对图像尺寸进行调整，将不同分辨率的图像缩放到统一尺寸，这个过程可能会造成图像细节的丢失。最后进行归一化，把图像像素值映射到特定范围，如0～1或-1～1，以加快模型训练的收敛速度。文本数据处理同样烦琐，首先要进行分词，将连续的文本切分成一个个单词或词语，不同语言的分词方式差异较大，如中文需要借助分词工具，像jieba等工具，英文相对简单些，但也存在处理缩写、复合词等情况。之后要去除停用词，如“的”“在”“is”“and”等，它们虽在语法上有作用，但对文本语义分析贡献不大，去除它们能降低数据量，提高处理效率。最后，为了能让计算机理解文本语义，需要将文本转换为词向量，常用的方法有独热编码、词袋模型，但这些方法存在维度灾难、无法体现语义相似性等问题，后来发展的Word2Vec等方法在这方面有所改进，但仍存在局限性。

大模型凭借强大的预训练能力，可对多种模态数据进行统一的特征提取与表示学习。以GPT-4为代表的大模型，在自然语言处理领域表现卓越，其核心的Transformer架构通过自注意力机制，能够捕捉文本中的长距离依赖关系，理解文本语义。在结合适当的视觉模块后，如CLIP模型中的视觉部分，就能对图像描述、视频内容理解等任务提供支持。

大模型能通过海量数据学到通用特征，这得益于其大规模预训练数据和复杂的网络结构。例如，在预训练过程中，大模型能接触到数十亿级别数量的文本、图像数据，从中学到语言和视觉的底层特征模式。在处理文本与图像混合的数据集时，大模型通过联合嵌入空间，将不同模态的数据映射到同一语义空间。以图像描述生成任务为例，模型对图像进行特征提取，得到视觉特征向量，对描述图像的文本进行编码，得到文本特征向量，通过在大量图像—文本对数据上进行训练，使模型学到如何将视觉特征与文本特征对应起来，降低数据预处理的复杂性，提高处理效率。而且大模型对噪声数据具有一定的稳健性，在面对社交媒体中格式不规范、存在错误拼写等文本数据，以及模糊、有噪点的图像数据时，仍能从中提取出有效的特征。

例如，电商平台拥有大量的商品图像和文本描述数据。以往采用传统方法，需要分别对图像进行特征提取，通常使用卷积神经网络（CNN），如经典的ResNet、VGG等模型，通过多层卷积和池化操作提取图像的局部和全局特征。对文本进行关键词提取和分类等操作，使用TF-IDF算法提取关键词，用朴素贝叶斯等分类算法对文本进行分类，然后尝试融合二者信息用于商品推荐。但由于图像特征和文本特征的提取是独立进行的，后续融合时难以找到二者的有效关联，推荐不够准确，而且整个流程从数据读取、预处理到特征提取，每一步都需要大量的计算资源，耗时较长。

引入大模型后，通过多模态大模型对商品图像和文本描述数据同时进行学习，模型中的自注意力机制能自动捕捉二者之间的关联，比如关注商品图像中的关键区域与文本描述中的对应商品属性词汇。在进行商品推荐时，推荐准确率明显提升，并且节省了数据处理时间。这是因为大模型统一的特征提取和表示学习方式，减少了数据预处理步骤，而且能更有效地挖掘不同模态数据间的潜在联系，这大大提高了电商平台的运营效率，为用户提供了更精准的商品推荐服务，提高了用户购买转化率。

大模型助力多模态数据融合

传统多模态数据融合方法主要分为特征级、决策级和数据级融合3种方式，每一种方式都存在明显短板。在特征级融合中，首先要对不同模态的数据分别进行特征提取。以图像和文本为例，图像可能通过卷积神经网络提取边缘、纹理等视觉特征，文本则借助词向量模型获取语义特征。然而，不同模态的特征在维度、尺度和分布上差异巨大。图像特征可能是高维向量，而文本词向量的维度相对较低，简单拼接这些特征，会导致数据稀疏性增加，模型难以有效学习，融合效果大打折扣。例如，在图像—文本检索任务中，因特征融合不佳，检索准确率可能仅能达到50%。

决策级融合是先针对各模态数据分别训练模型并做出决策，再将这些决策结果融合。这种方式最大的问题在于，在各模态独立决策过程中可能会损失大量的原始数据信息，不同模态决策之间缺乏深度协同。比如，在一个视频情感分析任务中，视频包含图像和音频模态，若分别用图像分析模型判断情感为“中性”，音频分析模型判断情感为“积极”，那么通过简单平均或投票等融合策略很难精准判断真实情感，因为它们忽略了图像与音频之间可能存在的复杂关联，导致最终分析结果不准确。

数据级融合看似直接，即将不同模态的原始数据合并处理，但实际操作困难重重。不同模态数据的格式、结构天差地别，图像是像素矩阵，文本是字符序列，音频是波形数据，要将它们统一起来非常棘手，而且原始数据量巨大，直接处理会给计算资源带来极大的压力，在实际应用中数据级融合可行性较低。

大模型借助先进的自注意力机制等技术，实现了自适应、精准的数据融合。以当下热门的视觉—语言大模型CLIP为例，在处理图像和对应的文本描述时，模型中的自注意力模块会动态计算图像不同区域的特征与文本中不同词汇之间的关联权重。比如，一幅包含狗在草地上奔跑的图像，文本描述为“一只小狗在绿色草地上欢快奔跑”，自注意力机制能让模型关注到图像中狗的区域与文本中“小狗”词汇的对应关系，以及草地区域与“绿色草地”词汇的对应关系，从而更好地融合二者。这种动态调整权重的方式，完全基于数据本身的特征，无须人工预先设定复杂融合规则，能根据不同任务和数据特点进行自动优化，这极大地提升了融合的效果。

而且大模型拥有强大的跨模态理解能力，能够处理更复杂的多模态数据组合。在融合视频、音频与文本数据时，它可以挖掘其中深层次的语义关联。例如，在电影场景分析中，结合电影画面、角色对话音频及字幕文本，大模型能理解角色动作、语音情感和台词含义之间的协同关系，准确判断出场景氛围是紧张、欢快还是悲伤等，为深入的视频内容分析提供了有力的支持。

例如，在智能安防领域，传统安防系统对监控视频的图像分析与音频检测是分开进行的。图像分析主要通过目标检测算法识别人员、物体等，音频检测则专注于异常声音，如玻璃破碎声、尖叫声等。然后在决策层次，简单地将通过图像分析判断有人员闯入与通过音频检测到异常声音这两个结果进行融合，判断是否存在安全威胁。但这种方式在实际应用中问题频发，在嘈杂环境下，音频检测极易受到干扰，产生大量误报；而且图像与音频信息由于前期独立处理，融合时关联并不紧密，很多潜在安全威胁被忽略。

采用多模态大模型后，情况得到了极大的改善。模型能够同时对视频中的图像信息和音频信息进行深度处理，通过自注意力机制学习二者之间的复杂关联。例如，当画面中出现人员异常奔跑动作时，模型会自动关注音频中是否有相应的呼喊声或脚步声变化；当检测到异常音频时，也会回溯图像寻找可能的源头。在实际应用场景的测试中，多模态大模型可以显著提高安防系统的可靠性，有效保障监控区域的安全，降低人力监控成本和减少误判带来的损失。

大模型助力多模态数据分析

传统机器学习和深度学习方法在多模态数据分析中，面临诸多挑战。首先，它们通常针对特定任务和模态设计模型，这使模型的泛化性能极为有限。以情感分析任务为例，若仅依靠文本数据训练模型，模型只能捕捉到文本中的词汇、语法结构所蕴含的情感信息，而对于图像、音频等其他模态中丰富的情感线索，如图像中人物的表情、音频中说话者的语调等，完全无法利用。这种单模态分析方式导致对数据的理解片面，难以适应复杂多变的实际场景。

其次，传统方法在处理大规模多模态数据时，计算资源需求呈指数级增长。在对大量视频、图像和文本数据进行分析时，不仅需要强大的硬件支持，如高性能的图形处理单元（GPU）集群，而且随着数据量的持续增加，计算资源很快就会捉襟见肘。并且，这些方法的扩展性较差，当新的数据类型或模态加入时，往往需要对整个模型架构进行大规模修改和重新训练，这样做成本高昂且耗时费力。

然后，对于复杂的多模态数据关系挖掘，传统方法严重依赖大量人工设计特征。这不仅要求数据分析人员具备深厚的领域知识，而且特征工程过程烦琐且容易出错。例如，在分析社交媒体数据时，要挖掘用户发布的文本、图像、视频之间的潜在关系，需要人工设计诸如图像主题与文本关键词匹配度、视频场景与文本情感倾向关联等复杂特征，效率极低。同时，模型架构的调整也需要反复试验，难以快速找到最优方案。

大模型展现出强大的泛化性能和复杂关系推理能力。通过在海量多模态数据上进行预训练，大模型学到了通用的知识和模式，能够在多种多模态任务上进行迁移学习。例如，一个在大量文本—图像对数据上预训练的大模型，在面对新的图像描述生成任务时，无须从头开始训练，只需在少量特定任务数据上进行微调，就能快速适应并生成高质量的图像描述。这种迁移学习能力极大地提高了模型的应用范围和效率。

在分析多模态数据时，大模型能够挖掘不同模态数据之间隐藏的复杂关系。以新闻报道分析为例，结合文本内容、相关图像以及视频片段，大模型可以通过其复杂的神经网络结构和自注意力机制，推断出事件的发展脉络。大模型能够理解文本中对事件的叙述与图像中场景的对应关系，以及视频中人物的动作、语言与文本描述的相互印证，进而全面地分析事件对不同群体的影响、相关人物的情感倾向等多方面信息。这种深度挖掘能力远远超越了传统方法。

此外，大模型在处理大规模多模态数据方面表现出色。借助分布式计算等先进技术，大模型能够将大规模数据分割成多个部分，在多个计算节点上并行处理，这大大提高了计算效率。而且，随着数据量的增加，大模型能够不断学习新的知识和模式，其性能能够持续提升。例如，在分析互联网上每日产生的海量多模态数据时，大模型能够快速处理并从中提取有价值的信息，为商业决策、舆情监测等提供有力支持。

DeepSeek在多模态数据分析的弯道超车

在大模型蓬勃发展的浪潮中，DeepSeek宛如一匹强劲的黑马，凭借一系列创新技术和独特优势，在多模态数据分析领域迅速崭露头角，为该领域带来了全新的活力与解决方案。

从架构层面来看，DeepSeek基于改进版的DeepSeek-V2架构，这是对标准Transformer架构的深度优化。这种优化并非简单的调整，而是从多个关键维度进行了革新。在注意力机制方面，它对标准Transformer架构的注意力计算方式进行了改进。通过更高效的算法设计，使模型在处理多模态数据时，能够更加精准地聚焦于关键信息，减少无关信息的干扰。以处理图文结合的多模态数据为例，它能更敏锐地捕捉图像中与文本描述紧密相关的区域，进而提升对整体数据的理解和分析能力。与传统的Transformer架构相比，DeepSeek-V2架构在计算效率上有显著提升，能够在相同时间内处理更多的数据，为大规模多模态数据分析提供有力的支持。

训练方法是DeepSeek的一大亮点。DeepSeek采用了独特的预训练方法这种方法区别于传统的预训练模式，通过引入新颖的训练目标和策略，使模型能够更好地学习多模态数据的内在特征和规律。在预训练阶段，DeepSeek不仅利用了海量的文本数据，还融合了图像、音频等多模态数据，让模型在多模态环境下进行学习，从而增强其对不同模态数据的理解和融合能力。引入FP8混合精度训练是DeepSeek的又一创新之举。与常见的FP16或BF16混合精度训练相比，FP8混合精度训练在保证模型精度的同时，进一步提高了计算效率。它通过在计算过程中灵活切换不同精度的数据表示，在非关键计算环节采用较低精度的数据进行计算，大幅降低了计算量和内存占用，而在关键节点则使用较高精度的数据以确保模型的准确性。采用更大的训练batch size也是DeepSeek训练过程中的重要策略。较大的batch size意味着模型在一次训练中可以处理更多的数据样本，这使模型能够学到更全面的数据特征，降低训练过程中的噪声影响，从而加快模型的收敛速度，提高训练效果。

在多模态数据分析的实际应用中，DeepSeek展现出诸多显著优势。输入命中缓存机制是其提升推理速度的关键技术之一。在处理多模态数据时，许多数据可能存在重复或相似的部分，DeepSeek的输入命中缓存机制能够快速识别这些重复输入，并直接返回缓存中的结果，这极大地缩短了模型的推理时间。在实时视频分析场景中，视频画面中的一些背景元素、常见物体等可能会频繁出现，DeepSeek利用缓存机制可以快速处理这些重复信息，将更多的计算资源用于分析视频中的动态变化和关键事件，从而实现对视频内容的实时、高效分析。

FP8推理和动态批处理优化进一步提升了DeepSeek在多模态数据分析中的性能。FP8推理在降低计算精度的同时，通过优化算法和硬件适配，有效地提升了推理速度。在处理大规模图像或音频数据时，这种速度提升尤为明显。动态批处理优化则根据输入数据的特点和系统资源的使用情况，自动调整批处理的大小。当系统资源充足时，增加批处理大小以提高计算效率；当系统资源紧张时，适当减小批处理大小，确保系统稳定运行，避免因资源不足导致的计算错误或性能下降。这一优化策略使DeepSeek在不同的硬件环境和数据规模下都能保持良好的性能表现。

在专业领域的多模态数据分析中，DeepSeek同样表现出色。在编程领域，DeepSeek-Coder专门针对代码生成进行了优化，具备强大的多语言支持能力。无论是常见的Python、Java，还是一些小众的编程语言，DeepSeek-Coder都能准确理解代码需求并生成高质量的代码。它对代码的解释详细入微，不仅能够生成代码，还能清晰地阐述代码的逻辑结构、功能实现原理以及潜在的优化方向，这对于开发者理解和维护代码、进行多模态编程（如结合代码注释和代码片段进行开发）具有重要意义。在数学领域，Deepseek拥有专门的数学解析器和优化算法。当面对包含数学公式、图表（图像模态）与文字描述（文本模态）的多模态数据时，DeepSeek能够利用数学解析器准确识别和解析数学公式，结合优化算法高效地求解数学问题，相比通用的语言模型推理，其在数学多模态数据分析方面具有更高的准确性和专业性。

DeepSeek凭借在架构、训练方法、推理优化及专业领域能力等多方面的独特优势，在多模态数据分析领域成功突破重围，为相关应用提供了更高效、更专业的解决方案，成为推动多模态数据分析技术发展的重要力量。

社群福利

本文节选自巴川、李慧、钟宇周、叶心函撰写的《多模态数据分析：AGI时代的数据分析方法与实践》一书，想阅读此书更多精彩内容的朋友，可在公众号【dbaplus社群】评论区留言，分享#关于数据分析的学习心得#或#目前亟需解决的数据分析疑难#，小编将在9月5日中午12点，根据留言精彩度选出3位读者，送出《多模态数据分析：AGI时代的数据分析方法与实践》一本~

迫不及待想入手这本书的朋友，可直接登录网址：https://item.jd.com/15086710.html

以DeepSeek为例：大模型应用于多模态数据分析有多强（文末送书）

降本的Kubernetes何时成了“成本刺客”？

YouTube如何利用MySQL支撑24.9亿用户？

人肉运维100次后，年底出了P0级故障……

关于国产数据库我不得不说

分库分表，可能真的要退出历史舞台了！