当前位置: 主页 > 太平洋经济 >

项冠军霸榜蛋白质功能预测任务超1年中科大成果

发布者:xg111太平洋在线
来源:未知 日期:2024-10-03 11:36 浏览()

  标签的(加权)均匀值是k-hop邻人中。N层GNN对待一个,不光依赖于它的特点节点的预测(示意),N跳邻人的特点况且依赖于其。似地类,对其预测有进献节点的特点不光,的预测也有进献对其N跳邻人。此因,解NEs锻练阶段的进修误差i-hop标签可能有用缓。

  卷积时的内存和时辰开销为了避免GNNs特点,SAGN)最先将特点卷积从GNNs平分离出来极少可扩展的GNNs(比方 GAMLP 和 。特点卷积实行一次预惩罚然后基于固定节点特点对。而然,可用NEs进修的因为节点特点是,s的联络锻练依然是难以秉承的这种念法对待NEs和GNN。

  这一挑拨为了应对,效的标签正则化本事咱们提出了一种有, Deconvolution)即标签反卷积LD (Label,新奇的、可扩展性强的近似标签通过对GNN逆映照获得一种。E的锻练阶段以抑造进修误差逆映照有用地将GNN纳入N年中科大成果斩获图学习“世界杯”单,锻练等效的方针函数进而爆发了与联络。D收敛到了最优方针函数值于是咱们也进一步证据了L,法供给了表面确保为提出的LD方。验验证通过实,下最先辈的要领LD明显优于当,chmark)挑拨赛的卵白质效力预测劳动上斩获「第一名」正在国际顶级图进修规范OGB(Open Graph Ben,9月27日起连结至今该记实从2023年。

  志皓石,学电子工程与音信科学系学士学位2020年得到中国科学本事大。的 MIRA Lab 尝试室攻读博士磋商生现于中国科学本事大学电子工程与音信科学系,杰老师师从王。和AI4Science磋商有趣网罗图示意进修。ICLR等期刊、聚会上颁发论文他曾以第一作家正在 TPAMI、,率约为8%的Spotlight呈文曾受邀正在ICLR 2023做接纳。

  很多紧急范畴图通俗利用于,络和卵白质彼此效用汇集比方引文汇集、商品网。际利用中正在很多实,富且有效的属性音信图中的节点拥有丰。如例,的节点(卵白质)分离蕴涵着题目/摘要、商品的文本描摹和卵白质序列等紧急音信引文汇集中的节点(论文)、商品汇集中的节点(商品)以及卵白质彼此效用汇集中,游劳动尽管紧急这些音信对下。这些繁复属性中捕捉节点特征的紧急器材之一而近年来兴盛的很多宏大的预锻练模子是从。

  而然,练NEs中应用的mini-batch的巨细现有图采样要领中应用的G(B)明明大于预训。)的巨细来对齐mini-batch的巨细倘使进一步减幼现有图采样要领中B或G(B,会明显低落它们的功能,所示如下。

  进修基准数据集“标杆”OGB是目前公认的图,Jure Leskovec老师团队征战由图进修范畴的国际顶级学者斯坦福大学,议NeurIPS上正式开源于2019年国际顶级学术会。

  颖的图神经汇集的逆运算该要领引入了一个相当新,算法来疾速近似它并提出标签反卷积,等价的亏损函数进而修筑一个,神经汇集微调要领的进修误差从而消逝了守旧发言模子和图。

  有着雷同的进修动作固然LD和联络锻练,上比联络锻练更高效但LD正在特点存储。来说的确,tch节点B数据上的亏损为了揣度mini-ba,繁复度对B中的属性实行编码LD的NE以O(B)的内存。而然,的采花样图中的属性实行编码联络锻练的NE对巨细为GB,存繁复度O(GB)爆发比LD更大的内。

  拥有最优性确保的大发言模子和图神经汇集离散锻练框架由中科大王杰老师团队(MIRA Lab)提出的首个,chmark)挑拨赛的卵白质效力预测劳动上斩获「第一名」正在国际顶级图进修规范OGB(Open Graph Ben,9月27日起连结至今该记录从2023年。

  要领的繁复性以及NEs的监视信号下面呈现了NEs锻练阶段差异锻练。速率最速、存储最高效的算法LD和GLEM是全部要领中。EM比拟且与GL,号中还商量到了图组织LD正在NEs的监视信。

  意的是值得注,公式中GNNs的参数θNEs的锻练阶段不涉及。于差异的motivation咱们的要领LD和GLEM基,来说的确,还原GNNLD旨正在,旨正在降低伪标而GLEM签

  (NE)的参数示意节点编码器。:用于卵白质序列的ESM2因为大型的预锻练模子(如,拥有宏大的特点提取才力用于文本的Bert),节点编码器f故将其动作。

  波器的策动受到频谱滤,效的GNNs架构近来显示了很多高。于频谱的GNNsLD的推导也是基,即:

  了节点属性的雷同度和标签的雷同度为了进一步对照逆标签和线中呈现。雷同文本(即文本雷同度大于0.6)但标签差异(节点0和1 咱们从ogbn-arxiv数据齐集随机选拔了几对拥有高度,3 2和,)的节点4和5。度分离来评估文本雷同度和标签雷同度咱们应用TF-IDF算法和余弦雷同。都拥有较高的雷同度图4a中每对节点,节点雷同度较低但差异对中的项冠军霸榜蛋白质功能预测任务超1,行独立选拔咱们对其进。4c解说图4b和,节点供给雷同的监视信号逆标签为拥有雷同文本的,点供给差异的监视信号为拥有差异文本的节。法告竣这一特征然而可靠标签无。可见由此,标签噪声来保存可靠语义属性逆标签通过下降图组织中的。

  Ns离散锻练的范式实行磋商本劳动对现有的NEs和GN,正在NE锻练阶段指出了现有劳动,NN中的特点卷积它们没有商量G,原始联络锻练的方针函数并不等价导致它们提出的近似亏损函数与,的进修误差存正在明显,(详见原论文举的反例)进而无法收敛到最优解。

  些属性和图组织为了同时编码这,aph Neural Network)串联集成正在沿道一个常见的架构是将预锻练模子与图神经汇集GNN(Gr,ode Encoder)对属性实行编码个中预锻练模子动作节点编码器NE(N。图所示如下,杂的节点属性酿成定长的低维嵌入该架构通过节点编码器将这些复,图神经汇集以团结图组织音信再将其动作节点特点输入到。

  ,爆发进修误差导致联络锻练。和图组织方面的进修误差咱们总结了正在节点标签。IANT 和GLEM的亏损函数图5呈现了联络锻练、LD、G。标签调解天生逆标签LD将图组织与节点,练雷同的进修动作连结了与联络训。而然,轻视了图组织或节点标签GIANT和GLEM,的进修误差导致了明显。

  略GNN特点卷积的题目针对离散锻练框架中忽,高效的标签正则化本事咱们提出了一种容易,Deconvolution即标签反卷积(Label ,D)L。标签为Y设节点,中的个人节点标签是缺失的)倘使劳动是半监视的(指图,到的固定节点特点锻练GNNs即可依据预锻练的NEs推理得。

  矩阵的逆。意的是值得注,了GNNs参数θ的一个人正在NEs的锻练阶段蕴涵。GNNs联络锻练的进修误差这种团结明显减轻了NEs和,响可扩展性同时不影。

  可进修的要么是,固定的要么是。]所示如[2,温和的假设下爆发大肆节点预测基于频谱的GNN可能正在极少。多可靠天下的图数据这些假设也合用于许。方针变为于是锻练:

  签与i跳邻人标签的加权和逆标签Y(γ)是可靠标。的权重γi的变动历程图8绘造了微调历程中。者i跳邻人中i较幼的标号逆标签往往是可靠标签或。然是全部标签中对节点分类最紧急的监视信号这是由于可靠标签和i较幼的i跳邻人标签仍。表此,标签存正在过光滑题目i 较大的i跳邻人,i的增进即跟着,能趋于不成分别i跳邻人标签可。意的是值得注,收敛到普通解权重γi不,个中

  而然,爆炸题目(neighbor explosion)动作NE的预锻练模子自己巨额参数且GNN的邻人,锻练NEs和GNN正在本质中并不成行的两大锻练困难的叠加让直接端到端联络。s和GNNs离散锻练的范式磋商者们滥觞磋商离散NE,s必然步数(GNN的锻练阶段)即先固定NEs的参数锻练GNN,s必然步数(NE的锻练阶段)再固定GNNs的参数锻练NE,迭代实行两步瓜代。

  预惩罚实行,多次增进内存和时辰开销的操作以避免正在NEs的锻练阶段施行www.xg111.net此因,ch的锻练方针为mini-bat:

  尝试中正在本,tch的巨细不堪过12预锻练NEs最大ba,G(B)明明幼于。以所,s实行联络锻练是难以告竣的通过图采样对NEs和GNN。

  时GNNs是可扩展确当NEs的参数β固定,征卷积离散本事来优化GNNs可直策应用上述的图采样或者特。

  性特点卷积的逆映照为了进一步避免线,反卷积来天生逆标签Y(γ)咱们提出了一个可锻练的标签。γ参数化Y(γ)标签反卷积旨正在用,的表达才力雷同使得Y(γ)于

  方华道,械计划与自愿化专业学士学位2023年得到上海大学机。的 MIRA Lab 尝试室攻读硕士磋商生现于中国科学本事大学电子工程与音信科学系,杰老师师从王。进修和天然发言惩罚磋商有趣网罗图示意。

  逆映照很难切确揣度因为非线性GNN的,N的有用近似来替换因而咱们推导GN。NN的频谱公式接下来先容G,积与GNN离散将线性特点卷。拥有雷同表达的逆标然后通过LD参数化签

  所示如下,据集上的阐扬都明显优于全部的baselineLD正在差异GNN backbone的三个数。

分享到
推荐文章