文章详情

  • 游戏榜单
  • 软件榜单
关闭导航
热搜榜
热门下载
热门标签
php爱好者> php文档>for Qreader: 下载电子书并转为txt文件

for Qreader: 下载电子书并转为txt文件

时间:2009-04-12  来源:albcamus


  S60系统上的Qreader有一种中文程序罕见的美德:支持UTF-8编码。 于是我经常下载一些人的文集之类,转换为txt文件,在手机上看。  久而久之,发现一个诀窍:

   使用Firefox插件DownloadThemAll!, 可以选择的下载一个页面中的所有链接,并且可以指定重命名规则。  例如这里的汪曾祺文集,就可以指定为:
   
    *name*.*txt*.*ext

   这样,原来网站上的020.htm这个文件,到了我的磁盘上就变成了020.看水.htm,其中"看水"就是索引页面中对这个超链接的描述。

  下载之后,由于是gb2312编码的,我这样把它们批量转换为utf8编码、并dump出txt文件:

    $ ls *.htm |while read file; do base=`echo $file |awk -F"." '{ print $1"."$2 }'` && iconv -f gb2312 -t utf8 $file > tmpfile && sed -i 's/charset=gb2312/charset=utf8/g' tmpfile && w3m -dump -T text/html tmpfile > "$base.txt"; done

   我是shell菜鸟! 不过它的确工作:) 工作过程是:

    for each htm file:
       -> 取其剔除".htm"后缀的文件名
       -> iconv转换为utf8编码,并写入一个tmpfile
       -> 调用w3m从这个tmpfile里dump出txt来

   菜鸟琢磨出一点点技巧也是很开心的:)
  
相关阅读 更多 +
排行榜 更多 +
剑术大乱斗

剑术大乱斗

动作格斗 下载
南钛HSSE

南钛HSSE

商务办公 下载
柱子

柱子

动作格斗 下载