Menu

Wie man Cloudflare umgeht

In diesem Artikel lernst du, wie du die Seite "Verifying you are human" von Cloudflare in NodeJS mit Playwright-Browserautomatisierung umgehen kannst.

Zunächst wollen wir kurz verstehen, wie Cloudflare funktioniert. Ohne Cloudflare hosten Website-Administratoren ihre Seiten auf einem Server mit öffentlicher IP-Adresse. Ihre Domainnamen werden auf diese IP-Adresse aufgelöst, und dein Browser verbindet sich direkt mit dem Server.

Wenn sie Cloudflare verwenden, delegieren sie die DNS-Verwaltung an Cloudflare, welches dann die Domainnamen auf eigene IP-Adressen auflöst. Auf diesen IP-Adressen betreibt Cloudflare spezielle Proxy-Server, die eingehende HTTP- und HTTPS-Anfragen filtern.

Neue Besucher sehen die bekannte Seite mit dem Text: „Verifying you are human. This may take a few seconds.“. Während dieser Überprüfung kann es erforderlich sein, ein Captcha zu lösen. Früher wurde reCAPTCHA verwendet, jetzt verwendet Cloudflare sein eigenes Turnstile-Captcha.

Nach erfolgreicher Captcha-Verifizierung erhält der Browser ein eindeutiges Token in einem Cookie namens cf_clearance. Dein Browser verwendet dieses Token, um Seiten der Website über den Cloudflare-Proxy anzufordern. Wenn das Token abläuft oder Cloudflare intern entscheidet, dass sich das Token wie ein Bot verhält, wird es ungültig gemacht und du siehst die Captcha-Seite erneut.

Unsere Methode hilft dir, dieses Token mit einer automatisierten Browser-Sitzung zu erhalten. Beachte, dass diese Methode die tatsächliche IP-Adresse der Website nicht preisgibt – diese Information ist nur Cloudflare und den Website-Administratoren bekannt. Und das ist gut so!

So geht’s mit NodeJS und Playwright:

// Install packages
// npx install playwright @antiadmin/anticaptchaofficial
import { chromium } from "playwright";
import ac from "@antiadmin/anticaptchaofficial";

// Specify the target website address
const websiteBehindCloudFlare = 'https://yourwebsite.com';

// Set your Anti-Captcha API key here:
ac.setAPIKey('API_KEY_HERE');
ac.setSoftId(0);

let browser = null;
let page = null;


(async () => {

    // Opening the browser
    try {
        console.log('Opening browser ..');
        browser = await chromium.launch({ headless: false });
        console.log('Creating new page ..');
        page = await browser.newPage();
    } catch (e) {
        console.log("Could not open browser: "+e.toString());
        return;
    }


    let params = null;

    try {

        // Doing several attempts to inject our code
        while (!params) {

            console.log('Navigating to the page')
            await page.goto(websiteBehindCloudFlare);

            console.log('Injecting our proxy code to replace window.turnstile');
            await page.evaluate(() => {
                window.turnstile = new Proxy(window.turnstile, {
                  get(target, prop) {
                    if (prop === "render") {
                      return function (a, b) {
                        const p = {
                          websiteURL: window.location.href,
                          websiteKey: b.sitekey,
                          action: b.action,
                          cData: b.cData,
                          chlPageData: b.chlPageData,
                          userAgent: navigator.userAgent,
                        };

                        // saving params in window.params
                        window.params = p;

                        // assigning callback to a variable
                        window.cfCallback = b.callback

                        // calling original render function
                        return target.render.apply(this, arguments);
                      };
                    }
                    return target[prop];
                  },
                });
            });

          console.log('Getting params');
          params = await page.evaluate(() => {
            return new Promise((resolve) => {
              setTimeout(() => resolve(window.params || null), 5000);
            });
          });

          if (!params) {
            console.log('Retrying..');
            await delay(3000);
          }
        }

        console.log("Extracted Turnstile Params:", params);

        console.log('Solving Turnstile captcha with Anti-Captcha')
        const token = await ac.solveTurnstileProxyless(websiteBehindCloudFlare, params.websiteKey, params.action, params.cData, params.chlPageData);

        // Running Cloudflare's callback function we previously assigned to window.cfCallback
        await page.evaluate((token) => {
            window.cfCallback(token)
        }, token);

        console.log('Waiting for redirects to finish')
        await delay(5000);

        // Get all cookies for current page
        const cookies = await page.context().cookies();
        // Find cf_clearance
        const cf_clearance = cookies.filter(c => c.name === 'cf_clearance');

        // Output cookies
        console.log('Cookies:', cookies);
        console.log('cf_clearance:', cf_clearance);



    } catch (e) {
      console.error('Could not inject proxy code:', e);
    }

    // close browser when needed
    // await browser.close();


})();

function delay(time) {
   return new Promise(function(resolve) {
       setTimeout(resolve, time)
   });
}

Das macht unser Code:

1. Öffnet ein Browserfenster und navigiert zur Cloudflare-Verifizierungsseite.
2. Ersetzt die render-Funktion von Turnstile durch unsere Proxy-Funktion, in der wir die Initialisierungsparameter sowie den Captcha-Callback abfangen.
3. Sendet die Initialisierungsparameter an die Anti-Captcha API. Menschliche Mitarbeiter lösen das Captcha für dich und liefern ein Token zurück.
4. Ruft die zuvor gespeicherte Callback-Funktion mit dem Turnstile-Token als Parameter auf.
5. Cloudflare überprüft dieses Token intern, setzt das Cookie im Browser und lädt die Seite neu.
6. Mit diesem cf_clearance ruft der Browser die Inhalte der Website über den Cloudflare-Proxy ab.