数据类型可以分为两大类,分别是:欧几里德结构数据
(Euclidean Structure Data) 以及 非欧几里德结构数据
(Non-Euclidean Structure Data)。
欧几里德结构样本
日常生活中最常见到的媒体介质莫过于是图片(image)
和视频(video)
以及语音(voice)
了,这些数据有一个特点就是“排列整齐”,即:图片可以用矩阵来表达其像素,如下图所示:

对于某个节点,我们很容易可以找出其邻居节点,图片数据天然的,节点和邻居节点有着统计上的相关性,因此能够找出邻居节点意味着可以很容易地定义出卷积这个操作出来。而在深度学习的过程中,卷积这个操作是提取局部特征以及层次全局特征的利器,因此图片可以很容易定义出卷积操作出来,并且在深度网络中进行进一步操作。
而且,因为这类型的数据排列整齐,不同样本之间可以容易地定义出“距离”这个概念出来。我们且思考,假设现在有两个图片样本,尽管其图片大小可能不一致,但是总是可以通过空间下采样的方式将其统一到同一个尺寸的,然后直接逐个像素点进行相减后取得平方和,求得两个样本之间的欧几里德距离是完全可以进行的。如下式:$$ d(s_i, s_j) = \frac{1}{2} \|(s_i – s_j)^2\| $$
因此,不妨把图片样本的不同像素点看成是高维欧几里德空间中的某个维度,因此一张 $m \times n$ 的图片可以看成是 $m \times n$ 维的欧几里德样本空间中的一个点,而不同样本之间的距离即为样本点之间的距离了。
这就是为什么称之为欧几里德结构数据的原因了。
同样的,视频可以在时间轴上进行采样做到统一的目的,而音频也是一样的。因此它们都是符合欧几里德距离定义的类型的样本。
【补充1】从图像到向量的映射
对于一个 $m \times n$ 的图像,我们可以将其每个像素的灰度值按行或按列排成一个向量。这个向量的长度是 $m \times n$ ,即包含了图像中所有像素的值。例如,若图像为 $3 \times 3$ 的大小,那么它可以展平成一个长度为 $3 \times 3 = 9$ 的向量。这种展开方式将图像的二维结构转换为了一维结构,但并没有改变其中的信息。
【补充2】欧氏距离(Euclid,欧几里得)——简称距离
设$X_1$、$X_2$为两个 n 维模式样本,
$$ X_1 = [x_{11}, x_{12},…,x_{1n}]^T $$
$$ X_2 = [x_{21}, x_{22},…,x_{2n}]^T $$
欧式距离定义为:
$$ D(X_1, X_2) = \|X_1 – X_2 \| = \sqrt{(X_1 – X_2)^T (X_1 – X_2)} = \sqrt{(x_{11} – x_{21})^2 + … + (x_{1n} – x_{2n})^2} $$
距离越小,越相似。
【例】现有 2 \times 2 的灰度图像A,像素值分别为:
$$ \begin{bmatrix} 100 & 150 \\ 200 & 50 \end{bmatrix} $$
我们可以将其展平为向量:
$$ [100, 150, 200, 50] $$
在 4 维的样本空间中,这个向量表示的是某个特定点的位置,所有的 $2 \times 2$ 图像就形成了一个 4 维空间。因此, $m \times n$ 的图像可以被视作 $m \times n$ 维样本空间中的一个点,这就是这种表示的基本原因。
若图像B 为:
$$ \begin{bmatrix} 120 & 180 \\ 200 & 60 \end{bmatrix} $$
代入数据,得
$$ d = \sqrt{(120 – 100)^2 + (180 – 150)^2 + (200 – 220)^2 + (60 – 80)^2} = \sqrt{2100} \approx 45.83 $$
非欧几里德结构样本
非欧几里德结构的样本总的来说有两大类型,分别是图(Graph)数据和流形(Manifold)数据,如下图所示:
![]() | ![]() |
这两类数据有个特点就是,排列不整齐,比较的随意。具体体现在:对于数据中的某个点,难以定义出其邻居节点出来,或者是不同节点的邻居节点的数量是不同的,这个其实是一个特别麻烦的问题,因为这样就意味着难以在这类型的数据上定义出和图像等数据上相同的卷积操作出来,而且因为每个样本的节点排列可能都不同,比如在生物医学中的分子筛选中,显然这个是一个Graph数据的应用,但是我们都明白,不同的分子结构的原子连接数量,方式可能都是不同的,因此难以定义出其欧几里德距离出来,这个是和我们的欧几里德结构数据明显不同的。因此这类型的数据不能看成是在欧几里德样本空间中的一个样本点了,而是要想办法将其嵌入(embed)到合适的欧几里德空间后再进行度量。而我们现在流行的Graph Neural Network(GNN图神经网络)便可以进行这类型的操作。随着深度学习的发展,图神经网络(GNN)已被证明在处理非欧几里得结构数据方面非常有效,从而在生物信息学许多领域中得到越来越多的应用。