基于hexo和github的个人博客
阅读全文
统计分词:为长度为$m$ 的字符串确定其概率分布 $p(\omega_1,\omega_2,\cdots,\omega_m)$ ,其中$\omega_1$到 $\omega_m$ 依次表示文本中的各个词语,一般使用二元概率模型:
基于规则的分词主要是通过维护词典(词典尽可能含有中文的所有词语), 在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配找到则切分,否则不予切分 。 主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法 。
参考: https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html#sphx-glr-beginner-blitz-cifar10-tutorial-py