成年笑话全面！时刻序列和时空数据大模子综述！

1 绪论成年笑话

大型言语模子（LLM）和预磨砺基础模子（PFM）在当然言语处理（NLP）、算计机视觉（CV）等领域有无为应用。时刻序列和时空数据本体上都是时刻数据，将这两个无为且内在计划的数据类别的研究结合起来至关勤劳。尽管深度学习和自监督预磨砺方法在时刻序列和时空数据分析领域迟缓取得进展，但统计模子仍占主导地位。

本综述回想了大型模子在时刻序列和时空数据挖掘中的应用，涵盖了数据类型、模子类别、模子范围和应用领域/任务四个关节方面。

尽管传统的分析方法仍然占主导地位，但深度学习和自我监督的预磨砺方法正迟缓取得进展，本文还提供了全面的有关资源集会，包括数据集、模子钞票和有用的器具，旨在为从业者提供全面且最新的会通和学问，并指出了将来研究的多种有前程的门路。

本综述的脾气：

初次全面且最新的综述。这是第一篇全面回想时刻序列和时空数据分析大型模子最新进展的综述论文。咱们提供了涵盖该领域广度的详细且最新的概述，同期还深入研究了各个方法的轻隐隐别，为读者提供了对该主题的全面和最新的会通。

长入和结构化的分类法。咱们引入了长入且结构化的分类法，将现存研究分为两个主要集群：时刻序列大模子（LM4TS）和时空数据大模子（LM4STD），凭证数据类别进行组织。凭证模子类型，咱们进一步将每个集群分为两个子组，即 LLM 和 PFM。随后的分类是通过模子范围、应用领域和具体任务的角度进行的。这种多方面的分类为读者提供了从多个角度会通该领域的连贯阶梯图。

丰富的资源编译。咱们编译和总结了该领域的丰富资源成年笑话，包括数据集、开源达成和评估基准。此外，咱们概述了各个领域有关大型模子的现实应用。该汇编可为将来的研究和开导责任提供有价值的参考。

将来的研究契机。咱们笃定并详细阐发了将来研究的多种有前程的门路，涵盖一系列不雅点，举例数据源、模子架构、磨砺和推理范式致使极他潜在契机。此次盘考使读者对该领域的近况有一个细巧的了解，同期也强调了将来研究的预期标的。2 布景2.1 大型言语模子言语建模是当然言语处理任务的基础，LLM最初是为了提高言语建模性能而开导的。与传统言语模子比拟，LLM在照看各式复杂任务方面具有新兴才调，如情境学习。跟着多模态大型言语模子（MLLM）的发展，LLM的下流任务远远超出了传统的当然言语范围。LLM分为两种主要类型：镶嵌可见LLM和镶嵌不能见LLM。前一种类型的LLM时常是开源的，具有可公开访谒的里面景色，允许对不同的规画任务进行微调。后一种类型的LLM时常是阻滞源的，莫得公开可用的里面景色，时常通过API调用中的领导来推断。LLM的简要阶梯图如图1（左）所示。

图片成年笑话

图1 代表性大型言语模子（左）和其他基础模子（右）的阶梯图

2.2 预磨砺基础模子

预磨砺基础模子（PFM）是大边界预磨砺模子，概况允洽照看各式下流任务。PFM的特征是具有浮现才协调同质化，以及在构建AI系统时整合方法。PFM的才调有三个关节维度：模态桥接、推理和谋划以及交互。

模态桥接包括多模态模子，如视觉言语模子等MLLM，弥合图像和文本之间的差距。推理和谋划才调包括LLM中的CoT、ToT和GoT，以及任务谋划代理。交互才调包括步履和通讯。时刻序列和时空数据的PFM仍处于早期发展阶段，远未达到上述第二和第三个关节维度。

2.3 时刻序列和时空数据时序数据是现实宇宙应用的基础数据，包括时刻序列和时空数据。时刻序列是如时期次序摆设的数据点序列，不错是单变量或多变量。在以下内容中，咱们使用特定字母示意法：粗体大写字母示意矩阵，粗体小写字母示意向量，书道大写字母示意集会，轨范小写字母示意标量。时刻序列数据。单变量时刻序列x = {x1， x2， · · · ， xT } ∈ R T是如时期次序索引的T个数据点的序列，其中xt ∈ R是时刻序列在时刻t的值。多变量时刻序列X = {x1， x2， · · · ， xT } ∈ R T ×D是如时期次序索引的T个数据点的序列，但具有D个维度，其中xt ∈ R D(1 ≤ t ≤ T)示意时刻序列在时刻t沿D个通说念的值。时空数据包含时空图、时序学问图谱、视频、点云流和轨迹等多种结构，由时刻和空间维度组织的数据点序列构成。本综述主要和蔼前三类。时空图。时空图G = {G1， G2， · · · ， GT }所以时刻次序索引的T个静态图快照的序列，其中Gt = (Vt， Et)示意时刻t的快照；Vt和Et是时刻t的节点和边集。相应的相接矩阵和节点特征矩阵被界说为At ∈ R N×N和Xt ∈ R N×D，其中At = {a t ij}，要是节点i和j之间存在边，则a t ij = 0，s.t. e t ij ∈ Et。这里，N = |Vt|是节点数，D是节点特征的维数。时序学问图谱。时序学问图谱G = {G1， G2， · · · ， GT }是如时期次序索引的T个静态学问图快照的序列，其中Gt = (Et， Rt)是由时刻t处的实体和干系集构成的快照。具体来说，Et封装了主体和客体实体，而Rt示意它们之间的干系集。在时序学问图谱中，实体和干系可能具有不同的特征，由Xe t ∈ R|Et|×De和Xr t ∈ R |Rt|×Dr示意，其中De和Dr是特征维度。视频数据。视频数据也不错被证明注解为一种时空数据，时常被界说为如时期次序索引的图像序列。设V = {F1， F2， …， FT }是一个如时期次序索引的T帧构成的视频，其中Ft示意第t帧。为淘气起见，咱们假定每个帧Ft都是一个像素矩阵，即Ft ∈ R H×W×C，不斟酌其他元数据，其中H、W和C分别是帧的高度、宽度和样子通说念。与每个数据类别有关的代表性任务，如图2所示。不错总结为：时刻序列任务包括预测、分类、颠倒检测和插补。时空图任务包括预测、市欢预测和节点/图分类。时序学问图谱任务包括完成和预测。视频任务包括检测、字幕、预测和查询。

图片

图2 大模子（即言语和其他有关的基础模子）不错被磨砺或奥秘地再行用于处理时刻序列和时空数据，以用于一系列通用任务和专用领域应用。

3 时刻序列数据的大模子

时刻序列数据的大模子包括用于时刻序列数据的LLM（LLM4TS）和用于时刻序列数据的PFM（PFM4TS）。前者是指哄骗LLM照看时刻序列任务，不管LLM在允洽过程中是微调仍是冻结。另一方面，后者侧重于开导明确针对各式时刻序列任务的PFM。其中，PFM4TS领域较新，可能未皆备发掘通用PFM的后劲，但为将来发展提供见识。每个细分领域再分为通用模子和特定领域模子，如图3所示。

图片

图3 从方法论（即LLM与PFM）、动机（如一般宗旨与特定领域宗旨）和应用的角度对时刻序列和时空数据的大型模子进行详细分类。3.1 时刻序列中的大言语模子（LLM4TS）时刻序列分析在零卖销售预测、经济时刻序列缺失数据的插补、工业珍惜的颠倒检测以及来自不同领域的时刻序列的分类等应用中至关勤劳。跟着NLP领域中LLM的快速增长，咱们探索了哄骗这些模子进行时刻序列分析的可能性，分别从通用和特定领域模子的角度盘考了LLM4TS。通用模子基于领导的时刻序列预测-PromptCast是一项新任务，旨在基于领导进行时刻序列预测，为时刻序列预测提供了一种“无代码”照看决策。LLMTime标明LLM是灵验的零样本时刻序列学习者。为了嘱咐穷乏大边界数据磨砺的挑战，提倡了一种基于部分冻结LLM的长入框架。访佛的责任是TEMPO，它仅专注于时刻序列预测，但结合了其他细粒度联想，如时刻序列领会和软领导。等等，最近，Time-LLM被提倡用源数据模式和基于当然言语的领导来再行编程时刻序列，以开释LLM看成灵验时刻序列机器的后劲。特定领域模子运载。时刻序列预测在智能交通系统（ITS）中起着关节作用。AuxMobLCast过程哄骗LLM进行交通数据挖掘，将东说念主类出动数据休养为当然言语句子，以便微调现存的LLM进行预测。金融。最近金融领域有几篇法学硕士论文报说念了淘气灵验的指示调整方法，用于情谊分析，并将分类情谊分析数据集升沉为生成任务，使LLM更灵验应用其磨砺和推理才调。实验还使用了GPT-4进行零样本/少热门推理，Llama进行微调，生成可证明注解的预测，达成了合感性能。还有使用访佛方法基于文本数据预测股票价钱走势的文件。事件预测。事件预测是对具有不章程时刻戳的异步时刻序列数据进行建模的轨范方法，举例金融、在线购物和应酬会聚等领域。时刻点过程（TPPs）已成为对这些数据进行建模的轨范方法。事件预测旨在凭证当年预测将来事件的时刻和类型。LLM在这种栽培中可能很有用，因为它们擅所长理丰富的文本信息。医疗保健。医疗领域需要预测患者就诊和症状时刻序列的临床模子，但现存模子因数据处理和开导复杂性而受限。GatorTron和NYUTron是临床LLM，改良了五个临床NLP任务，展示了在医学中使用临床LLM的后劲。LLM可通过少许即时调谐将数字时刻序列数据接地，改良零样本推断和健康任务的监督基线。心电图是常用的医疗监测器具之一，可哄骗自动生成的临床讲演来率领自监督预磨砺框架。3.2 时刻序列中的预磨砺基础模子（PFM4TS）除了哄骗LLM进行时刻序列分析外，时刻序列预磨砺和有关基础模子的开导具有后劲，有助于识别跨领域和任务的一般时刻序列模式。通用模子自2021年以来，提倡了多量预磨砺的基础模子，其中大多数是通用的。Voice2Series是第一个概况再行编程用于时刻序列任务的框架。基于对比学习时期出现了几个基于时刻序列数据的预磨砺基础模子，包括TF-C、TS2Vec和CLUDA。CLUDA是一种基于对比学习的无监督时序域自允洽模子，具有自界说对比学习和最隔邻对比学习组件。此外，该领域还使用了好多其他时期，如STEP模子、MTSMAE、SimMTM和PatchTST。TSMixer是一种轻量级的MLP-Mixer模子，用于多元时刻序列预测。特定领域模子PromptTPP是一种预磨砺事件序列基础模子，选定连气儿学习（CL）照看横祸性淡忘问题。它将基础模子与连气儿时刻检索领导池集成，领导为袖珍可学习参数，与基础模子集结优化，确保按次序学习事件流，无需缓冲或特定于任务的属性。4 时空数据的大型模子本节将研究跨三个主要数据类别（时空图、时刻学问图和视频）的时空数据分析中大模子的进展，每个类别都具有无为的现实宇宙应用。4.1 时空图（STG）STG是一种主张，示意个体插足一个星球，其元素在空间和时刻上进行交互，酿成长远的时空组合。STG应用无为，包括交通、空气质料、股票价钱和东说念主体骨骼分析等。STGNN是STG预测最流行的方法，哄骗GNN捕捉空间有关性，其他模子学习时刻依赖性。LLM和PFM为STGNN提供文本数据撑握，增强时空情境丰富性，会通多种花式数据，扩大时空会通深度和广度。这些模子可生成东说念主类可证明注解证明注解，提高透明度和可靠性，简化磨砺和推理过程，提高算计效能。时空图的大言语模子相较于PFM，使用LLM增强STGNN学习才调的文件较少。一种方式是哄骗LLM学习节点之间的干系，如早期研究提倡框架，通过ChatGPT索求会聚结构，再集成到GNN中，擢升股票预测性能。另一种方式是哄骗LLM的先验学问增强STGNN的下流应用，如LA-GCN中升沉为先验全局和类别干系拓扑，界说节点之间的互连，强调关节节点信息。总之，LLM在提高STGNN的准确性、情境机敏度和语义深度方面具有强盛后劲。时空图的预磨砺基础模子通用宗旨。对比学习在图像和文才略域无为应用，在STG学习领域也取得权贵截止。STGCL通过对比正负对，从复杂STG数据中索求丰阔气酷爱酷爱的示意，促进交通预测和电力破钞预测等应用。SPGCL最大化正负邻居分辩度，使用自定进程策略生成最优图，学习极点间信息干系。局势。基于AI的局势预测模子哄骗深度学习分析多量风光数据，索求复杂模式。预磨砺策略提高模子泛化才调。FourCastNet达成高分辨率预测和快速推理。潘谷的多时刻模范模子组合方法展示更强的中期预测才调。ClimaX针对各式局势和天气任务进行微调。W-MAE整合自监督预磨砺方法，索求基本特征和一般学问。FengWu选定多模态和多任务方法，将不笃定性亏蚀纳入区域自允洽优化中。运载。CPPBTR是一种基于transformer的群体流量预测框架，具有两阶段解码过程。TrafficBERT哄骗BERT激励的关节特征，选定双向transformer结构预测合座流量。TFM将交通模拟纳入交通预测领域，哄骗图形结构和动态图形生成算法捕捉交通系统中参与者之间的动态和互相作用。4.2 时序学问图谱学问图谱（KGs）和时态学问图谱（TKGs）是研究学问上复杂多干系栽培的勤劳模子。KGs示意事实，时常从文本数据中索求，以三元组（s，p，o）的花式示意。TKGs通过扩展事实为具巧合刻戳的四元组（s，p，o，t），灵验地捕捉事实之间的时刻依赖性，有助于提高对实体步履的会通。4.3 视频视频是图像序列的数字示意，传统视频会通方法有2D CNN和3D CNN。最近，变换器用于建模时空依赖性。最新的LLMs和PFMs哄骗多模态脾气，如CLIP和DALL-E，可集结处理视觉和文本模态，提高视频分析任务的泛化和鲁棒性。视频的大言语模子现存的视频会通模子仅针对特定任务，穷乏详细多种任务的才调。最新的研究标明，LLM的序列推理才调不错应用于各式视频处理任务，源于事前磨砺的当然言语处理LLM。一些研究文件和蔼使用LLM的视频问答（VQA）、多模态模子和多模式输入。LAVILA哄骗大型言语模子的才调来获取视频言语示意，克服了视频文本语料库边界有限的挑战。通过微调事前磨砺的LLM，LAVILA创建了自动化的视频叙述者，提供了全面逃匿、增强时刻同步和各样性文本内容的平允。视频的预磨砺基础模子连年来，言语、视觉和多模态预磨砺方法会通，始创了各式面向视频的预磨砺策略。具体而言，OmniVL长入了图像言语和视频言语建模，PAXION整合了动作学问，mPLUG-2允许哄骗各式模块组合进行单模态和跨模态任务，mPLUGvideo基于mPLUG-2的主张联想。这些方法为视频处理带来了一系列视频或视频言语基础模子。5 资源和应用本节总结了与时刻序列和时空数据有关的各式应用中常见的数据集、模子和器具，具体如表3。

表3 不同应用门径中的数据集资源选录

图片

5.1 交通应用交通流量预测已成为智能交通系统（ITS）发展的关节问题。时刻序列和时空数据的哄骗有助于创建更准确和自允洽的预测模子。数据集。多个交通数据集已成为基准，如METR-LA、PEMS-BAY、PEMS04、SUTD-TrafficQA、TaxiBJ、BikeNYC、TaxiNYC和SafeGraph的出动数据集。这些数据集提供了交通速率和流量的详备见识，以及交通流量建模和预测的可贵资源。LargeST是第一个大边界交通预测的交通数据集，包括五年内说念路会聚上的8，000多个传感器。器具。研究东说念主员不错使用SUMO、TransWorldNG、SafeGraph Data for Academics和trafficBERT等器具进行交通模拟和分析。SUMO是开源的交通模拟器，TransWorldNG是GitHub上的复杂交通模拟器具。SafeGraph Data for Academics提供匿名数据访谒。trafficBERT是针对不同说念路条目的模子，哄骗多头自堤防力机制捕捉时刻序列信息。5.2 医疗保健应用医疗保健领域的时刻序列预测濒临挑战，但具有现实酷爱酷爱。预测模子在疾病进展、归天率推测和时刻依赖风险评估方面至关勤劳。本节概述了有名数据集和模子/器具，展示了其在鼓吹医疗照看决策方面的强盛后劲。数据集。医疗保健领域有多个数据集，如PTBXL（18，885名患者，21，837份心电图）、纽约大学数据集（10年入院临床条记）、UF Health临床语料库（900亿字）、i2b2-2012（时刻干系审视）、MIMICIII（ICD-9代码、生命体征等）和CirCor DigiScope（最大儿科心音数据集）。模子检讨点和器具包。模子检讨点和器具包在医疗保健领域无为应用。NYUTron处理及时结构化/非结构化条记和电子订单，BioBERT优化生物医学数据集，ClinicalBERT允洽临床领域，BlueBERT擅永生物医学NLP任务，Clairvoyance撑握临床决策，ARL EEGModels和DeepEEG处理EEG信号。5.3 天气应用天气预告是泛泛决策和经济斟酌的基础，触及大气条目预测。本节先容了用于天气能源学时刻序列预测的主要数据集、模子和器具。数据集。SEVIR（风暴事件图像）包含10，000多个事件，整合了GOES-16和NEXRAD数据。Shifts看成不笃定性推测，对实在宇宙分散偏差具有鲁棒性。NASA提供了AvePRE、SurTEMP、SurUPS数据集，阐发了12个风光参数的小时变化。WeatherBench看成中程天气预告的基准，CMIP6是海外定约，专注于评估巨匠局势模子，ERA5是无为的再分析数据库，提供1979年至2018年的颗粒大气数据。模子和器具。Pangu-Weather是快速、精准的巨匠预测模子；ClimaX基于Transformer架构，配备更正编码和团聚时期，可在CMIP6数据上预磨砺；GraphCast会通GNNs，在预测任务中阐明出众。天气预告的时刻序列评估成绩于数据采集和建模的最初，将来有望提供更精细的器具和数据集。5.4 金融应用时刻序列预测，尽头是在金融领域，濒临挑战。需要深入研究线性和非线性历史数据交互以进行将来预测。常见应用包括预测生意信号和预测股票价钱变动。数据集。金融（奇迹）采集了COVID-19时期好意思国100万活跃职工的奇迹数据，并斟酌国度计谋。StockNet研究了推文和历史股价对88只股票的影响。EDT面向企业事件检测和基于文本的股票预测，包含9721篇新闻著作，为基于文本的股票预测提供基准。NASDAQ-100包含NASDAQ-100的逐日股票价钱，使用yfinance包从雅虎财经检索。模子和器具。FinGPT是开源、扩展、挑升为金融领域定制的言语模子，强调数据照督察说念和轻量级低秩允洽方法的价值。WeaverBird是金融领域的智能对话系统，具有学问库和搜索引擎，能会通复杂金融查询，提高实在度。在快速发展的金融领域，预测模子和器具的陆续改良至关勤劳。跟着数据量和模子复杂度的增多，金融行业将从更精准的预测和精细的决策中受益。5.5 视频应用视频问答（VideoQA）奋力于使用给定视频中的内容讲演当然言语问题。该模子应生成反馈视频中形色内容的精准谜底。该领域还扩展到视频质料评估和视频预测。数据集。TGIF-QA提供165K个动画GIF的QA对，MSR-VTT有10，000个视频裁剪和字幕，WebVid有1000万视频裁剪和会聚字幕，MSVD有12万个视频片断形色，DiDeMo有近27，000个事件时刻形色，COCO有328K图像用于对象检测、分割和字幕。模子和应用。对比言语图像预磨砺（CLIP）哄骗当然言语监督来磨砺图像示意，BLIP提供独到的辅导方法处理VLP中的噪声会聚数据，ViLBERT扩展BERT架构集结处理视觉和文本输入，VisualBERT通过Transformer将图像区域和言语结合起来，允许self-attention识别隐式的言语-视觉对皆。5.6 事件预测应用事件序列，也称为异步时刻序列，在金融、购物和应酬等领域至关勤劳。本末节将盘考用于事件预测任务的主要数据集、模子和器具。数据集。亚马逊和淘宝是两个包含用户产物考虑步履的数据集，每个事件包含时刻戳和类别。Retweet、StackOverflow和Taxi是另外三个事件序列数据集，分别包含用户转发、用户问题解答和用户出租车上车事件序列。模子和应用。Tick 是经典 TPP 统计学习的有名库，但存在局限性。为克服这些局限性，研究东说念主员开导了神经 TPP，哄骗神经会聚的抒发才调学习复杂依赖干系。EasyTPP 是神经事件序列建模领域的首个开源研究钞票中央存储库，提供流行神经 TPP 达成、丰富模块库、长入数据集界面和易于使用扩展的评估门径。5.7 其他除了前边提到的具体应用除外，时刻序列预测、分类和颠倒检测亦然电力、云算计、零卖等领域的深广应用领域。数据集。ETT（电力变压器温度）包含中国两个县的变压器两年温度数据；M4提供100，000个时刻序列；Electricity【309】含近四年家庭电力破钞数据；阿里巴巴集群追踪拿获24小时共置责任负载统计数据；TSSB（时刻序列分割基准）领有75个审视时刻序列；UCR时刻序列分类档案数据集从85个扩展到128个系列。通用器具和库。OpenSTL 是时空预测学习的基准，涵盖无为方法和任务。BasicTS 是基于 PyTorch 的基准测试和器具箱，用于时刻序列预测。Merlion 是开源机器学习库，撑握单变量和多元模子。darts 是专为时刻序列预测和颠倒检测联想的 Python 库。PyTorch Geometric Temporal 是 PyTorch Geometric 的动态扩展库，撑握各式功能。6 揣测在本节中，咱们盘考了刻下研究的潜在局限性，并强调了将来六大研究标的，旨在开导更强盛、透明和可靠的大边界时序数据分析模子。6.1 大模子的表面分析大型言语模子（LLM）主要处理应然言语，但最近的研究将其扩展到时刻序列和时空任务。LLM的学习示意可被微调以捕捉时序数据模式。可是，LLM看成“黑匣子”，其预测和决策背后的数据影响难以会通。需要进行更深入的表面分析，以了解言语和时序数据之间的潜在模式相同性，以及若何灵验地将其用于特定的时刻序列和时空任务。6.2 多模式模子的开导现实宇宙应用中的时刻序列和时空数据时常带有文本形色等补充信息，这在经济学和金融等领域尤其有用。LLM不错允洽学习集结示意，斟酌时刻数据的次序性质和其他模态的独到特征，以及不同模态的时刻分辨率各异，以充分哄骗来自不同时期分辨率的扫数信息，获取更好的性能。6.3 握续学习和允洽现实宇宙应用需要研究模子允洽非自如环境的才调，幸免横祸性淡忘。诚然已有一些研究和蔼常见模子中的这些问题，但大型模子握续允洽陆续变化的时刻数据，包括在线学习策略、允洽主张漂移以及允洽数据中陆续演化的模式，仍未被充分探索。6.4 可证明注解性和可证明注解性会通LLM预测时刻序列的原因至关勤劳，尽头是在医疗和金融领域。现在对LLM里面会通有限，因此需要建设表面框架以会通LLM所学，并研究若何增强盛型模子以扩充时刻推理和推断因果干系。这包括开导识别因果干系的方法，关于根底原因分析和侵犯规画等应用至关勤劳。6.5 大型模子的狡饰和造反性报复时态数据明锐，LLM磨砺可能线路狡饰。研究狡饰保护时期（如差分狡饰和联邦学习），确保数据狡饰，同期受益于LLM在时刻序列和时空分析方面的强盛功能。6.6 模子泛化和破绽LLM在通用数据上预磨砺，并在特定任务上微调。微调数据中的造反性或噪声示例可能导致模子存在破绽。要是微调数据未经过仔细整理，模子可能吸收偏见或破绽，导致鲁棒性受损。此外，LLM在多量数据集上磨砺，但可能无法很好地膨胀到新数据。时刻序列和时空数据可能片刻变化或趋势，LLM在磨砺时期未遭逢访佛模式，可能会产生不能靠的输出，强调鲁棒泛化的需求。参考而已：《 Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook》本站仅提供存储服务，扫数内容均由用户发布，如发现存害或侵权内容，请点击举报。

成年笑话 全面！时刻序列和时空数据大模子综述！

成年笑话全面！时刻序列和时空数据大模子综述！