最近这段时间想学爬虫来自己获取数据,因此找了几篇简单的java爬虫教程博客来看。令人失望的是这些爬虫基本都用不了。而复杂的爬虫又不适合初学者。由于我只是想做一个类似于脚本的东西,因此想了想,还是自己动手吧。先从获取html网页代码入手。

import java.io.BufferedReader;  
import java.io.InputStreamReader;  
import java.URL;  


public class webPageResource {  


    public static void main(String[] args) {  
        // TODO Auto-generated method stub  
        webPageResource t6=new webPageResource();  
        String htmls= t6.getPageSource("http://www.no5/browse/specialprice_p2.html","GBK");  
        System.out.println(htmls);  
    }  

    public String getPageSource(String pageUrl,String encoding) {    
        StringBuffer sb = new StringBuffer();    
        try {    
            //构建一URL对象    
            URL url = new URL(pageUrl);    
            //使用openStream得到一输入流并由此构造一个BufferedReader对象    
            BufferedReader in = new BufferedReader(new InputStreamReader(url    
                    .openStream(), encoding));    
            String line;    
            //读取www资源    
            while ((line = in.readLine()) != null) {    
                sb.append(line);    
                sb.append("\n");  
            }    
            in.close();    
        } catch (Exception ex) {    
            System.err.println(ex);    
        }    
        return sb.toString();    
    }   

}  

更多推荐

通过java获取html网页代码