1.一种网络视频话题检测的方法,其特征在于,包括:步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
2.如权利要求1所述的网络视频话题检测的方法,其特征在于,所述步骤1前还包括,设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
3.如权利要求2所述的网络视频话题检测的方法,其特征在于,步骤3和步骤4之间还包括:步骤31,对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
4.如权利要求1所述的网络视频话题检测的方法,其特征在于,步骤3和步骤4之间还包括:步骤41,对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
5.如权利要求1所述的网络视频话题检测的方法,其特征在于,所述步骤5后还包括:步骤51,对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;步骤52,根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
6.如权利要求1所述的网络视频话题检测的方法,其特征在于,所述步骤3进一步为,步骤61,属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;步骤62,计算事件的视频向量的平均值,以所述平均值为所述事件的权重;步骤63,设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;步骤64,以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
7.如权利要求1所述的网络视频话题检测的方法,其特征在于,所述步骤5进一步为,步骤71,对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;F(ET)=10×ET1+10×ET]]>ET(t)=α×weight(T(t))-β]]>weight(T)=Σϵt∈Tweight(ϵt)+Σ{ϵt-1,ϵt}∈TSim(ϵt-1,ϵt)]]>能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;步骤72,根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
8.如权利要求5所述的网络视频话题检测的方法,其特征在于,所述步骤51还包括,步骤81,轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
9.一种网络视频话题检测的系统,其特征在于,包括:显著词提取模块,用于将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;事件检测模块,用于将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;轨迹图生成模块,用于计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;轨迹图分割模块,用于将事件发展轨迹图分割为多个连通子图;结果生产模块,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。
10.如权利要求9所述的网络视频话题检测的系统,其特征在于,所述系统还包括历史时间窗口设置模块;在启动显著词提取模块前启动历史时间窗口设置模块,历史时间窗口设置模块,用于设置历史时间窗口,以历史时间窗口内的时间单元上传的视频为检测对象,所述历史时间窗口随着时间推移沿时间轴向前滑动。
11.如权利要求10所述的网络视频话题检测的系统,其特征在于,轨迹图生成模块还用于对事件发展轨迹图进行动态更新,所述动态更新包括增加历史时间窗口新覆盖的时间单元的事件对应的点和边,删除滑出时间窗口的时间单元的事件对应的点和边。
12.如权利要求9所述的网络视频话题检测的系统,其特征在于,轨迹图生成模块还用于对于发展轨迹图中相邻时间单元的事件对应的两个点,如果同所述两点相连的点中相同点的个数大于等于2,并且两个所述点没有相连,则连接所述两点。
13.如权利要求9所述的网络视频话题检测的系统,其特征在于,所述系统还包括展示模块,展示模块,用于对得到的话题的轨迹在时间和热点程度的两维空间中展示;轨迹中每个事件点的横坐标代表该事件发生的时间单元,纵坐标代表该事件被关注的程度,由事件权重表示;并根据话题的轨迹发展模式将话题划分为内容热点、轨迹热点、和潜在热点话题,并分别推荐展示。
14.如权利要求9所述的网络视频话题检测的系统,其特征在于,所述轨迹图生成模块进一步用于将属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;计算事件的视频向量的平均值,以所述平均值为所述事件的权重;设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边。
15.如权利要求9所述的网络视频话题检测的系统,其特征在于,所述结果生产模块进一步用于对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;F(ET)=10×ET1+10×ET]]>ET(t)=α×weight(T(t))-β]]>weight(T)=Σϵt∈Tweight(ϵt)+Σ{ϵt-1,ϵt}∈TSim(ϵt-1,ϵt)]]>能量函数F是一个sigmod函数,值在0到1之间,单调递增;ET是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,ET(t)是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测。
16.如权利要求13所述的网络视频话题检测的系统,其特征在于,所述展示模块还用于以轨迹的边的宽度代表事件之间的相似度,边越宽,代表越相似,每个事件点展示预定义的前n个重要的显著词,以及前m个相关视频的关键帧。
展开