采集
时间:2008-04-15 来源:gardon.gao
最近一段相对比较忙,前段呢真的是闲啦,从年后到前几周晚上从来不加班,下班就往家里跑,呵呵……不过这向来是俺的风格,没有特殊事我是不会留下来的。最近版本升级的项目到了第二个阶段,我负责的模块需要测试解决问题调通等等,问题也不少,一不留神给你来个the system will be reboot,:)不过问题都不大,都是组件注册的问题,再加上其他一些事情,总的来说,虽然有问题出现,不过解决速度也是蛮快,这不,今天我一人就投入到为后续一个工作的学习当中,哎……也是挺无聊。于是打开TSE的源码和C++的书偷偷看起来,时不时眼睛瞟几眼后面,怕被PL看见…………
突然想起前段,我的顶培网初步完成在录入数据出现了很大的麻烦,一个是时间有限二个是效率太低,一天就那么几十条显然是不能满足需要的,于是我移植了PHPCMS的采集器,由于系统设计的时候对培训的分类达到了三层,很复杂,并且数据库设计与PHPCMS的出入也不小,所以采集器虽然是能采集到内容,但是也需要很大的人工干预,所以一度搁浅了。其实那个时候有想过根据采集到的内容进行培训类型的匹配,但是觉得很复杂,就放弃了。今天突然仔细想了一下,其实并没有自己想象的那么复杂。然后又在纸上大致写了下大概流程,感觉还是可以做的,就看效率怎么样。考虑到效率,想用C去做,效率可能会快但是和MySQL php的衔接可能会差点,最后还是决定用PHP做大概的流程,中间如果涉及到数据处理,可以调用可执行程序来做,大概就这样了。
晚上回来,又试了试PHPCMS,发现居然只能在1个页面里去搜集URL再采集,NND,真土。这下又得做调整了。本来打算几天做完的,不过现在看来又得改计划了。既然想做,就应该做的更彻底,更加匹配自己的系统------推掉PHPCMS的,自己从头到晚从新定制一个?这个工作量该是多少呢?得思考一下再决定。
相关阅读 更多 +