2020年3月16日 10:57:33未分类评论90阅读模式

英文:

How to apply ads blocker to HTML content get by Java HttpClient GET request and parse by Jsoup?

问题

我将要抓取报纸和文章。然而，我不想要广告。我想要在我的请求上应用广告拦截（类似于手动启用广告拦截浏览网页，然后保存不带广告的HTML页面）

DefaultProxyRoutePlanner routePlanner = new DefaultProxyRoutePlanner(proxy);
CloseableHttpClient httpClient = HttpClientBuilder.create()
   .setDefaultRequestConfig(this.config)
   .setRoutePlanner(routePlanner)
   .setSSLContext(sslContext)
   .setConnectionManager(cm)
   .setConnectionManagerShared(true)
   .build();

HttpGet getRequest = new HttpGet(url);
getRequest.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
try (CloseableHttpResponse response = httpClient.execute(getRequest)) {
    String headerContentType = response.getFirstHeader("Content-Type").getValue();
    if (headerContentType != null && headerContentType.contains("text/html")) {
        HttpEntity entity = response.getEntity();
        if (entity != null) {
            content = EntityUtils.toString(entity, "utf-8");
            EntityUtils.consume(entity);
        }
    } else {
        // 在这里记录失败事件
    }
}

现在我有String content作为HTML内容。
我使用org.jsoup.Jsoup解析内容。

Document contentDoc = Jsoup.parse(
        content
);
String contentstr = contentDoc.body()
        .getElementsByTag("p")
        .text();

英文:

I am going to crawl newspaper, article. However I don't want ads. I want to apply ads block on top of my request (similar to browsing the web manually with ads block on, then save the HTML page without ads)

DefaultProxyRoutePlanner routePlanner = new DefaultProxyRoutePlanner(proxy);
CloseableHttpClient httpClient = HttpClientBuilder.create()
   .setDefaultRequestConfig(this.config)
   .setRoutePlanner(routePlanner)
   .setSSLContext(sslContext)
   .setConnectionManager(cm)
   .setConnectionManagerShared(true)
   .build();

HttpGet getRequest = new HttpGet(url);
getRequest.setHeader(&quot;User-Agent&quot;, &quot;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11&quot;);
                    try (CloseableHttpResponse response = httpClient.execute(getRequest)) {
                        String headerContentType = response.getFirstHeader(&quot;Content-Type&quot;).getValue();
                        if (headerContentType != null &amp;&amp; headerContentType.contains(&quot;text/html&quot;)) {
                            HttpEntity entity = response.getEntity();
                            if (entity != null) {
                                content = EntityUtils.toString(entity, &quot;utf-8&quot;);
                                EntityUtils.consume(entity);
                            }
                        } else {
                            // log fail event here
                        }
                    }

Now I have String content as HTML content.
I parse the content with org.jsoup.Jsoup.

    Document contentDoc = Jsoup.parse(
            content
    );
    String contentstr = contentDoc.body()
            .getElementsByTag(&quot;p&quot;)
            .text();

专注分享java语言的经验与见解，让所有开发者获益！

How to apply ads blocker to HTML content get by Java HttpClient GET request and parse by Jsoup?

问题

Go like channels in Java

在低资源环境下使用Apache Cassandra和Go服务器

avatica-go客户端读取Phoenix查询服务器：[驱动程序：连接错误]

向Spring端点发送POST请求，返回状态码400。

Spring Boot控制器从Golang应用程序接收到的重定向请求会被重复执行两次。

可以在不将其读入内存的情况下多次重用HTTP请求体吗？

How to register my go lang microservice in Spring Eureka Service Discovery

在应用程序-go + BDD-java中模拟第三方服务

What is value, reference vs pointer and what these three example used to pass?

Do goroutines and light-weight Java threads mean we never need use thread pools and async code again?

发表评论