引言
本文的主要内容是关于等变图神经网络的一些研究进展,简单介绍了几种用来实现等变的方法,以及在分子性质预测任务中的一些代表性网络结构的简介。注意本文的内容具有一定的时效性,主要介绍的是本文更新日期之前的工作。
"> ">
本文的主要内容是关于等变图神经网络的一些研究进展,简单介绍了几种用来实现等变的方法,以及在分子性质预测任务中的一些代表性网络结构的简介。注意本文的内容具有一定的时效性,主要介绍的是本文更新日期之前的工作。
假设\(\{\boldsymbol x_i\in \mathbb{R}^D\}_{i=1}^N\)是从未知的数据分布\(p_{\text{data}}(\boldsymbol x)\)中采集到的一组独立同分布的数据集,定义得分函数(score function)\(\boldsymbol s (\boldsymbol x)=\nabla_{\boldsymbol x}\log p(\boldsymbol x)\),即概率密度的对数函数在数据点\(\boldsymbol x\)处的梯度。也就是说,得分函数对应于一个向量场,它指出了概率密度增长最大的方向。
得分函数通常表示为\(\boldsymbol s_{\boldsymbol \theta} (\boldsymbol x)=\nabla_{\boldsymbol x}\log p(\boldsymbol x)\)的形式,也就是用一个神经网络来对得分函数进行近似,其中\(\boldsymbol \theta\)表示神经网络的参数。
Recently, more and more works are published talking about pre-training strategies on molecular data, which lead to better performance on downstream tasks of molecules. However, the relationship between molecular representation and pre-training methods still remains a mystery. This blog is a brief note about two works taking about the evaluation of pre-training tasks on molecular data.
Note that the two works only talk about pre-training on 2D molecular data. For 3D molecular data, there might be different results with 2D data.
在分子性质预测任务中,有标签的数据通常十分宝贵。因此,目前有一些工作使用大规模无标签(或弱标签)数据集对模型做预训练,然后在下游任务上进行微调,从而提高在下游任务上的表现,下文将介绍其中的一些工作。本文具有一定的时效性,此外本文的内容以3D(即除了拓扑结构之外还包含有原子坐标信息)的分子为主。
扩散模型是受非平衡热力学的启发提出的一种生成模型,最早出现于2015年的文章Deep Unsupervised Learning using Nonequilibrium Thermodynamics。它定义了一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。
目前所使用的扩散模型大都是基于2020年的去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM)这一工作,它对之前的扩散模型进行了简化,并通过变分推断来进行建模。本文主要内容为DDPM的相关知识,不涉及在此基础上的改进工作。
自监督学习指的是构造辅助任务(pretext task),从大规模的无标签数据中构造出自身的监督信息,并使用其对模型进行训练。通过辅助任务所构造的监督信息,可以使得模型从中学习到对下游任务有价值的表征。
相比于监督学习,自监督学习的学习目标来自于人为定义;而相比于无监督学习,自监督学习中模型的训练方式采用的是更接近监督学习的方法。目前,自监督学习更被倾向于归类到无监督学习的范畴中去。
一些学者将图数据的自监督学习方法分为三大类:
二点分布又称0-1分布,或者伯努利分布,其分布列为: \[ P(X=x)=p^x(1-p)^{1-x}~~x=0,1 \] 它用于描述一次伯努利实验中成功的次数。
记\(X\)为\(n\)重伯努利实验中成功的次数,\(p\)为每次伯努利实验中成功的概率,则\(X\)服从二项分布,记作\(X\sim b(n,p)\)。它的分布列为: \[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}~~k=0,1\dots,n \] 二项分布的期望和方差分别为: \[ \begin{aligned} &E(X)=np \\ &\text{Var}(X)=np(1-p) \end{aligned} \]
在一定的条件下,并不总是出现相同结果的现象被称为随机现象,例如投掷一枚骰子出现的点数。随机现象的结果不止一个,且人们事先无法知道哪一个结果出现。对相同条件下可以重复的随机现象的观察、记录、实验称为随机试验。
随机现象的一切可能基本结果组成的集合称为样本空间,记为\(\Omega=\{\omega\}\),其中\(\omega\)表示基本结果,又被称为样本点。
样本空间具有以下特点:
设\(\{\mathscr{X},\mathscr{B},\mathscr{P}\}\)为一参数统计结构,其中\(\mathscr{P}=\{P_\theta:\theta\in \Theta\subseteq R\}\)。假设统计量\(\hat{\theta}_L(X)\)与\(\hat{\theta}_U(X)\)满足条件\(\hat{\theta}_L(X)\le \hat{\theta}_U(X)\),则称区间\([\hat{\theta}_L(X), \hat{\theta}_U(X)]\)为参数\(\theta\)的一个区间估计。
设\((\mathscr{X},\mathscr{B},\mathscr{P})\)为一统计结构,则\(\mathscr{P}\)的非空子集称为假设,在\(\mathscr{P}\)为参数分布族\(\mathscr{P}=\{P_\theta;\theta\in \Theta\}\)的情况下,\(\Theta\)的非空子集称为假设。
在一个假设检验问题中,通常涉及两个假设:所要检验的假设被称为原假设,记作\(H_0\);而与\(H_0\)不相容的假设被称为备择假设,记为\(H_1\)。关于统计结构\((\mathscr{X},\mathscr{B},\mathscr{P})\)的原假设和备择假设分分别记为: \[ H_0:P\in \mathscr{P}_0,~~H_1:P\in \mathscr{P}_1 \] \(\mathscr{P}_0\)和\(\mathscr{P}_1\)为\(\mathscr{P}\)的两个互不相交的非空子集。而
对于参数分布族的场合,原假设和备择假设又可分别写为: \[ H_0:\theta \in \Theta_0,~~H_1:\theta \in \Theta_1 \] 其中\(\Theta_0\)和\(\Theta_1\)是\(\Theta\)的两个互不相交的非空子集。
如果一个假设中只含有一个元素,则称该假设为简单假设,否则被称为复合假设。