在夜晚的香港做一只蜥蜴

当我开始写这段文字时,凌晨两点,独自一人在元朗的公交枢纽游荡,等待45分钟一班的新界小巴将我送到皇岗口岸过关。在此前的四小时内,我尝试以各种方式从澳门回到深圳,却最终在「等待」与「流浪」两种状态中彷徨。 也许是由于天生散漫的性格,又或者更由于决策上的失误,我并没有提前购买返回深圳的高铁或者船票。当一排排「售罄」铺陈开在我的面前时,我有些慌了,因为这意味着我回程的唯一方法是:陆路。这并非夸大其辞,但是,在深夜寻找一条从澳门到深圳的公共交通链并不容易。 从澳门到香港赤臘角有固定班次的港珠澳大桥...

Read More

从DPG到DDPG

肖淇文, Apr/20/2024 [!important] 本文仅为大纲 I. DPG (Deterministic Policy Gradient)易混淆符号规定: 符号及定义 含义 $r^\gamma_t=\sum\limits_{k=t}^\infty\gamma^{k-t}r(s_k,a_k)$ discounted reward from time-step $t$ $J(\pi)=\mathbb{E}[r_1^\gamma|\pi]$ performance...

Read More

Proving Policy Gradient Theorem

Policy Gradient TheoremOptimize: $$J(\theta)\doteq v_{\pi_\theta}(s_0)$$ with discount factor $\gamma=1$. To get the gradient: $$\begin{aligned}\nabla J(\theta)&=\nabla\left[\sum_{a_0}\pi(a_0|s_0)q_\pi(s_0,a_0)\right]\&=\sum_{a_0}\left[\na...

Read More

【深度学习】用于Transformer的FLOATER位置编码

© Charleyxiao。未经授权,严禁转载。 由于博客排版有误,欢迎移至知乎阅读:https://zhuanlan.zhihu.com/p/629476200 0x00 来源论文Learning to Encode Position for Transformer with Continuous Dynamical Model 0x01 引言位置编码(Positional Encoding)是 Transformer 模型的预处理的一个重要部分。之所以引入位置编码,是为了解决自注意力机...

Read More

希伯来语动词变位小结

希伯来语中,每一个动词都属于七大类 $binyan(im)$ 中的一种,且都拥有一个词根。在这篇笔记中,我将会一一列出它们在动词变位方面拥有一些共同点。这只是一个归纳小结,实际上还有很多需要注意的地方,对于每一类动词都不同;但我这里仅仅只是列出共同点,或者可以看作是一个概论。参考资料:Lewis Glinert - Modern Hebrew: An Essential Grammar 过去时动词的过去时由词根加上一个后缀形成,实际上这些后缀和对应的人称代词有着一些关联,可以联系着记忆。如...

Read More

Daddish

DaddishLast Edited: 2022/05/04 & 2022/10/04(Not Updated) WelcomeWelcome to the tutorial of Daddish, a constructed language created by me. From the following tutorial, you will acquire a basic knowledge of the grammar of Daddish and learn to sp...

Read More


Powered by Hexo and Hexo-theme-hiker

Copyright © 2023 - 2024 Charley's Hut All Rights Reserved.

UV : | PV :