文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>一个统计文章字数的算法,求改进

一个统计文章字数的算法,求改进

时间:2010-10-20  来源:John Smith

其中最重要的当然是解决如何统计中英文混合情况下的字数。

我的思路是:

1)先根据空白字符把文章分解为若干个段,分解得到的各段中的文本已不包含空白字符。

2)遍历对分解得到的各段,对每段 Si 进行如下处理,求该段的词数 Ci:

  2.1)统计该段中连续非中文词(包括标点)出现的次数 Ei。

     (例如对于 "abc好吗?abc很好。" 这个文本中,Ei = 2。)

  2.2)统计该段中中文字符(包括标点)的字数 Zi。

     (例如对于 "abc好吗?abc很好。" 这个文本中,Zi = 6。)

  2.3)该段中的单词数即为 Ci = Ei+Zi。

     (根据上面的例子,Ci = 8。)

3)整篇文章的单词数 Count = ∑Ci。

 

在假设文章中仅出现英文字符和中文字符的情况下,划定 Unicode <= 0x00FF 的字符为英文字符,Unicode > 0x00FF 的字符为中文字符。

从而得到如下程序:

int WordCount(string value)
{
    var sec = Regex.Split(value, @"\s");
    int count = 0;
    foreach (var si in sec)
    {
        int ci = Regex.Matches(si, @"[\u0000-\u00ff]+").Count;
        foreach (var c in si)
            if ((int)c > 0x00FF) ci++;
        count += ci;
    }
    return count;
}

 

 

附上测试程序 /Files/tracydj/WordCountPerformance.rar

如果你还有好的思路和方法,请和大家一起分享。

 

相关阅读 更多 +
排行榜 更多 +
辰域智控app

辰域智控app

系统工具 下载
网医联盟app

网医联盟app

运动健身 下载
汇丰汇选App

汇丰汇选App

金融理财 下载