Php文档 Php问答行业资讯 Php论坛 Php手册 Php博客

游戏榜单

软件榜单

关闭导航

热搜榜

热门下载

热门标签

关闭搜索

php爱好者> php文档>PLSI( probabilistic latent semantic indexing ) 词分类，文档分类

PLSI( probabilistic latent semantic indexing ) 词分类，文档分类

时间：2011-03-05 来源：amojry

而LSA的劣势在于，没有比较好的统计基础，这个和当前流行趋势是不相符的。

所以PLSA，用概率模型来做文档分类，或者词聚类。等

要求你有个word dictionary.假设为SETWord ={w1,w2,w3..}

事前定义好的几个分类,例如: SetTopic = {t1, t2, t3...}

最后是一个分类未知的杂合文档集, SetDoc = {d1,d2,d3...}

可以试想，一个作者在写关于某个文档时候的思路

1. 确定要写的一个topic, P(t)

2. 选择一系列的词，这些词要和当前topic t相关的，所以为P(w|t).

3. 用这些词组成一个文档, P(d|w)。

这个是顺德思路。

那么当我们已经得到一堆文档的情况下。我们要反过来想，这个就是PLSI的三步走

1. 在文档集中挑选一篇文档d的概率, P(d)

2. 这篇文档描述内容是关于topic-t的概率: P(t|d)

3. 这个topic中，包含了文档当前内容w的概率: P(w|t)

当然，可以明显看出最后一条原本应该是：P(w|t,d)，而这就是PLSI的假设：文档中字和具体某个文档无关。所以P(w|t,d)==》P(w|t)

那么由于是无监督学习分类过程

p(d,w) = p(d)p(w|d)

p(w|d) = ∑p(w|t)p(t|d) (t∈T)

合并两个方程式，得

p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)

p(t|d)p(d) = p(t,d) = p(d|t)p(t)

再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (t∈T)

我们要去求的结果是p(w|t)和p(d|t)..

E-STEP: p(t|d,w) = p(w|t)p(d|t)p(t)/∑( p(w|t')p(d|t')p(t'))

M-STEP:

p(w|t) = ∑(n(d,w)*p(t|d,w))【 - 对于所有的d都计算】/ ∑(n(d,w)*p(t|d,w))【 - 对于所有的变d, 定w 都计算】

同理p(d|t) = ∑(n(d,w)*p(t|d,w))【 - 对于所有的w都计算】/ ∑(n(d,w)*p(t|d,w))【 - 对于所有的定d, 变w都计算】

p(z) = ∑(n(d,w)p(z|w,d)),所有的属于z的时候的统计/∑n(d,w)(所有文档,所有分类综合.

直观而言， PLSI输出是两个matrix 和一个vector

matrix:

p(w|t) 定义了在topic下的一个词的分布。

p(d|t)定义了各个文档在此topic下的分布。

可惜，当前课题太bt了，我想plsi只适合大众的，频繁出现的词聚类效果还好，对于一些古文等，就力不从心了，因为没有数据、文档。叹口气，继续。倒了研二，压力好大好大好大好大，求毕业。

有错误的话，请指出，谢谢、

相关阅读更多 +

poki小游戏免费秒玩直通入口-poki小游戏极速畅玩零等待入口软件资讯 2025-12-17
poki小游戏免费秒玩-官方入口网站链接游戏攻略 2025-12-17
欧易购买STETH详细指南软件资讯 2025-12-17
CET4准考证成绩防伪验证通道-CET4准考证成绩下载官方入口软件资讯 2025-12-17
CET4准考证成绩官网快速查询入口-CET4准考证成绩精准模糊查询入口软件资讯 2025-12-17

排行榜更多 +

熊猫宝宝逛超市游戏

休闲益智下载

我的勇者taptap手游

飞行射击下载

狙击界扛把子最新版

飞行射击下载

4
荒野行动tt语音版本
1.95GB · 93℃

1970-01-01

下载
5
全球冒险手游
73.3MB · 91℃

1970-01-01

下载
6
全民枪战2最新版本
1.13GB · 99℃

1970-01-01

下载