论文笔记-等变图神经网络

发表于 2022-12-11 分类于论文笔记阅读次数：
本文字数： 25k 阅读时长 ≈ 23 分钟

引言

本文的主要内容是关于等变图神经网络的一些研究进展，简单介绍了几种用来实现等变的方法，以及在分子性质预测任务中的一些代表性网络结构的简介。注意本文的内容具有一定的时效性，主要介绍的是本文更新日期之前的工作。

深度学习-Score-Based model

发表于 2022-12-07 分类于理论知识，深度学习阅读次数：
本文字数： 20k 阅读时长 ≈ 18 分钟

得分函数

定义

假设\(\{\boldsymbol x_i\in \mathbb{R}^D\}_{i=1}^N\)是从未知的数据分布\(p_{\text{data}}(\boldsymbol x)\)中采集到的一组独立同分布的数据集，定义得分函数（score function）\(\boldsymbol s (\boldsymbol x)=\nabla_{\boldsymbol x}\log p(\boldsymbol x)\)，即概率密度的对数函数在数据点\(\boldsymbol x\)处的梯度。也就是说，得分函数对应于一个向量场，它指出了概率密度增长最大的方向。

得分函数通常表示为\(\boldsymbol s_{\boldsymbol \theta} (\boldsymbol x)=\nabla_{\boldsymbol x}\log p(\boldsymbol x)\)的形式，也就是用一个神经网络来对得分函数进行近似，其中\(\boldsymbol \theta\)表示神经网络的参数。

阅读全文 »

论文笔记-2D分子图预训练的效果评估

发表于 2022-12-02 分类于论文笔记阅读次数：
本文字数： 11k 阅读时长 ≈ 10 分钟

Preface

Recently, more and more works are published talking about pre-training strategies on molecular data, which lead to better performance on downstream tasks of molecules. However, the relationship between molecular representation and pre-training methods still remains a mystery. This blog is a brief note about two works taking about the evaluation of pre-training tasks on molecular data.

Note that the two works only talk about pre-training on 2D molecular data. For 3D molecular data, there might be different results with 2D data.

阅读全文 »

论文笔记-分子图预训练

发表于 2022-12-02 分类于论文笔记阅读次数：
本文字数： 18k 阅读时长 ≈ 16 分钟

引言

在分子性质预测任务中，有标签的数据通常十分宝贵。因此，目前有一些工作使用大规模无标签（或弱标签）数据集对模型做预训练，然后在下游任务上进行微调，从而提高在下游任务上的表现，下文将介绍其中的一些工作。本文具有一定的时效性，此外本文的内容以3D（即除了拓扑结构之外还包含有原子坐标信息）的分子为主。

阅读全文 »

深度学习-扩散模型

发表于 2022-11-07 分类于理论知识，深度学习阅读次数：
本文字数： 40k 阅读时长 ≈ 37 分钟

简介

扩散模型是受非平衡热力学的启发提出的一种生成模型，最早出现于2015年的文章Deep Unsupervised Learning using Nonequilibrium Thermodynamics。它定义了一个扩散步骤的马尔可夫链，逐渐向数据添加随机噪声，然后学习逆扩散过程，从噪声中构建所需的数据样本。

目前所使用的扩散模型大都是基于2020年的去噪扩散概率模型（Denoising Diffusion Probabilistic Model，DDPM）这一工作，它对之前的扩散模型进行了简化，并通过变分推断来进行建模。本文主要内容为DDPM的相关知识，不涉及在此基础上的改进工作。

阅读全文 »

论文笔记-图自监督学习概述

发表于 2022-08-09 更新于 2022-08-10 分类于论文笔记阅读次数：
本文字数： 13k 阅读时长 ≈ 12 分钟

引言

自监督学习指的是构造辅助任务（pretext task），从大规模的无标签数据中构造出自身的监督信息，并使用其对模型进行训练。通过辅助任务所构造的监督信息，可以使得模型从中学习到对下游任务有价值的表征。

相比于监督学习，自监督学习的学习目标来自于人为定义；而相比于无监督学习，自监督学习中模型的训练方式采用的是更接近监督学习的方法。目前，自监督学习更被倾向于归类到无监督学习的范畴中去。

一些学者将图数据的自监督学习方法分为三大类：

阅读全文 »

概率论-常见的概率分布

发表于 2022-01-12 更新于 2022-01-17 分类于理论知识，统计学阅读次数：
本文字数： 8.1k 阅读时长 ≈ 7 分钟

常用离散分布

二点分布

二点分布又称0-1分布，或者伯努利分布，其分布列为： \[ P(X=x)=p^x(1-p)^{1-x}~~x=0,1 \] 它用于描述一次伯努利实验中成功的次数。

二项分布

记\(X\)为\(n\)重伯努利实验中成功的次数，\(p\)为每次伯努利实验中成功的概率，则\(X\)服从二项分布，记作\(X\sim b(n,p)\)。它的分布列为： \[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}~~k=0,1\dots,n \] 二项分布的期望和方差分别为： \[ \begin{aligned} &E(X)=np \\ &\text{Var}(X)=np(1-p) \end{aligned} \]

阅读全文 »

概率论-基本概念

发表于 2022-01-11 更新于 2022-01-15 分类于理论知识，统计学阅读次数：
本文字数： 35k 阅读时长 ≈ 32 分钟

随机事件与概率

随机事件及其运算

随机现象

在一定的条件下，并不总是出现相同结果的现象被称为随机现象，例如投掷一枚骰子出现的点数。随机现象的结果不止一个，且人们事先无法知道哪一个结果出现。对相同条件下可以重复的随机现象的观察、记录、实验称为随机试验。

样本空间

随机现象的一切可能基本结果组成的集合称为样本空间，记为\(\Omega=\{\omega\}\)，其中\(\omega\)表示基本结果，又被称为样本点。

样本空间具有以下特点：

样本空间中的元素可以是数也可以不是数。例如抛一枚硬币的样本空间为\(\Omega=\{\omega_1,\omega_2\}\)，其中\(\omega_1,\omega_2\)分别代表正面朝上和反面朝上。
随机现象的样本空间至少有两个样本点。
从样本空间含有样本点的个数来区分，样本空间可以分为有限和无限两类。有限个或者可列的样本空间通常称为离散样本空间，而样本点的个数为不可列无限个的情况称为连续样本空间。

阅读全文 »

数理统计-区间估计

发表于 2022-01-07 更新于 2022-01-16 分类于理论知识，统计学阅读次数：
本文字数： 19k 阅读时长 ≈ 17 分钟

基本概念

区间估计

设\(\{\mathscr{X},\mathscr{B},\mathscr{P}\}\)为一参数统计结构，其中\(\mathscr{P}=\{P_\theta:\theta\in \Theta\subseteq R\}\)。假设统计量\(\hat{\theta}_L(X)\)与\(\hat{\theta}_U(X)\)满足条件\(\hat{\theta}_L(X)\le \hat{\theta}_U(X)\)，则称区间\([\hat{\theta}_L(X), \hat{\theta}_U(X)]\)为参数\(\theta\)的一个区间估计。

阅读全文 »

数理统计-参数假设检验

发表于 2021-12-26 更新于 2022-01-30 分类于理论知识，统计学阅读次数：
本文字数： 49k 阅读时长 ≈ 45 分钟

基本概念

假设

设\((\mathscr{X},\mathscr{B},\mathscr{P})\)为一统计结构，则\(\mathscr{P}\)的非空子集称为假设，在\(\mathscr{P}\)为参数分布族\(\mathscr{P}=\{P_\theta;\theta\in \Theta\}\)的情况下，\(\Theta\)的非空子集称为假设。

在一个假设检验问题中，通常涉及两个假设：所要检验的假设被称为原假设，记作\(H_0\)；而与\(H_0\)不相容的假设被称为备择假设，记为\(H_1\)。关于统计结构\((\mathscr{X},\mathscr{B},\mathscr{P})\)的原假设和备择假设分分别记为： \[ H_0:P\in \mathscr{P}_0,~~H_1:P\in \mathscr{P}_1 \] \(\mathscr{P}_0\)和\(\mathscr{P}_1\)为\(\mathscr{P}\)的两个互不相交的非空子集。而

对于参数分布族的场合，原假设和备择假设又可分别写为： \[ H_0:\theta \in \Theta_0,~~H_1:\theta \in \Theta_1 \] 其中\(\Theta_0\)和\(\Theta_1\)是\(\Theta\)的两个互不相交的非空子集。

如果一个假设中只含有一个元素，则称该假设为简单假设，否则被称为复合假设。

阅读全文 »