//g" *.html 2.把所有处理完的HTML内容集中在一个文件里,这里因为文
3、件名特殊,要简单处理下。[python] viewplaincopy1.import os 2.for i in range (0,2005): 3. if i == 0 : 4. strs = "000" 5. elif i > 0 and i < 10: 6. strs = "00" + str(i) 7. elif i>=10 and i<100: 8. strs = "0" + str(i) 9. else : 10. strs = "" + str(i) 11. fin
4、alstr = "D:\test\1\xxxxxxxxxxx_" +strs+".html" 12. cmds = "cat " + finalstr + " >> d:\test\all2 " 13. print cmds 14. os.system(cmds) 3.处理音标。就是把所有的标签删掉,注意要避免VI下的贪婪匹配,防止删掉不该删的东西。[plain] viewplaincopy1.%s/]*/>//g 4.微调格式[plain] viewplaincopy1.:%s/. /
/g 5.把生成的文件中
5、头尾加入在第2步中删除的BODY标签之外的东西。在浏览器中打开,拷到WORD中,然后另存为PDF. 6.大功告成。如果大家有好的转换软件可以告诉我哈。查看前后效果对比:未处理前2000多页:处理后500多页:
此文档下载收益归作者所有