프록시를 통한 JS 캡챠 풀기. 프록시를 이용하는 모든 사람들이 읽어야 하는 글!
저희가 하는 일을 더 자세히 이해할 수 있도록 아래 설명을 꼼꼼하게 읽어주세요.
캡챠 푸는 과정은 2단계로 이루어져 있습니다.
1. 저희가 리캡챠 태스크를 작업자에게 보내기 전에, 저희는 프록시에 몇 가지 검사를 시행하여 프록시가 적절하게 작동하는지 그리고 저희 필수 요건을 충족하는지 확인합니다. 이 검사를 통과하면, 시스템에서 10분 동안 검사 결과를 기억합니다. 이 검사를 통과하지 못하면, 시스템에서 60초 동안 검사 결과를 기억합니다.
2. 캡챠 푸는 과정. 작업자들이 태스크를 받고 리캡챠가 브라우저에 제공됩니다. 리캡챠는 자체 프록시 서버를 통해서 작동하도록 설정되어 있습니다. 저희는 이를 프록시게이트(Proxygate)라고 부릅니다. 프록시게이트는 프록시에 연결되므로 안전한 사슬을 형성하므로, 작업자는 프록시 데이터에 직접 액세스할 수 없습니다.
프록시가 매우 잘 작동하는 경우, 프록시를 통해 리캡챠가 성공적으로 요청되고 풀립니다.
저품질의 프록시가 있을 경우, 이 단계에서 일부 인터넷 연결, 읽기/쓰기 등의 오류가 발생할 수 있습니다. 프록시게이트는 리캡챠 태스크를 오류 코드로 표시하고 태스크를 취소할 것입니다. 오류가 인터넷 연결 총합의 1% 미만일 경우 괜찮지만, 오류의 백분율이 더 높은 경우 다른 것으로 대체하거나 프록시 오프 모드를 이용하기 시작해야 한다는 의미입니다. 저희는 오류가 많이 있는 프록시를 이용하여 작업할 수 없습니다. 저희 작업자에 대해서 말하자면, 영구적인 시스템 문제처럼 보이며, 태스크는 항상 제자리 걸음이고, 작업자들은 돈을 받지 못합니다.
규칙:
- 1단계에서 프록시가 필터링되면 $0.0001을 공제합니다.
- 캡챠를 푸는 과정에서 프록시가 작동하지 않는 경우 태스크 비용 전액을 공제합니다. 왜냐하면 저희 작업자의 시간을 낭비하게 했기 때문입니다.
- 호스트명이 아닌 프록시 IP 주소만 수락됩니다.
- 프록시는 2초 이내로 반응해야 하며, 본래 IP 주소, 지원 SSL, 이미지 전송, 긴 주소 IRL을 숨겨야 하며 구글에서 차단당하지 않아야 합니다.
저희는 프록시 체커 툴을 이용하여 프록시가 저희 서비스에 호환되는지 여부를 확인합니다. 프록시 체커에서 성공적인 결과가 나온다고 해서 생산 시에 원활하고 오류 없게 캡챠가 풀릴 거라고 보장되지는 않습니다. ERROR_PROXY_CONNECT_REFUSED 혹은 ERROR_PROXY_CONNECT_TIMEOUT와 같은 오류를 받는 경우, 특정 시점에서 프록시가 작동하지 않았다는 의미입니다. 이러한 유형의 오류의 백분율이 높은 경우, 저희는 1시간 동안 이 프록시를 차단합니다.
저희에게 시중 최고의 프록시를 구매했다고 쓰고 말하지 말아주세요(특히, Luminati에서 제공하는 봇넷 쓰레기에 대해서). 최고의 프록시는 여러분이 전용 서버 혹은 충분한 렘(RAM) 메모리를 갖춘 VPS에 스스로 설치한 프록시입니다. 프록시를 판매하는 모든 서비스는 동일한 하드웨어 및 네트워크 인프라를 다른 고객에게 판매합니다. 전용 IP 주소가 있을 수도 있지만, 또 다른 100명의 고객과 100개의 IP가 있는 서버에 얽매여 있을 것입니다. 그리고 여러분은 서버에 어떤 하드웨어 환경 설정이 있을 수 있는지 절대 모를 겁니다.
그러니 저희는 여러분에게 SQUID 프록시 서버 소프트웨어를 이용하도록 권장합니다. 이 서버 소프트웨어는 C++로 작성되어 있으며 인터넷이 탄생한 이후로 이용되어 왔습니다. 한 번 자체 서버에 설치하시면, 설치했다는 사실도 잊어버리고 저희와 저희 작업자들이 여러분에게 정말 감사해 할 것입니다.
캡챠 푸는 과정은 2단계로 이루어져 있습니다.
1. 저희가 리캡챠 태스크를 작업자에게 보내기 전에, 저희는 프록시에 몇 가지 검사를 시행하여 프록시가 적절하게 작동하는지 그리고 저희 필수 요건을 충족하는지 확인합니다. 이 검사를 통과하면, 시스템에서 10분 동안 검사 결과를 기억합니다. 이 검사를 통과하지 못하면, 시스템에서 60초 동안 검사 결과를 기억합니다.
2. 캡챠 푸는 과정. 작업자들이 태스크를 받고 리캡챠가 브라우저에 제공됩니다. 리캡챠는 자체 프록시 서버를 통해서 작동하도록 설정되어 있습니다. 저희는 이를 프록시게이트(Proxygate)라고 부릅니다. 프록시게이트는 프록시에 연결되므로 안전한 사슬을 형성하므로, 작업자는 프록시 데이터에 직접 액세스할 수 없습니다.
프록시가 매우 잘 작동하는 경우, 프록시를 통해 리캡챠가 성공적으로 요청되고 풀립니다.
저품질의 프록시가 있을 경우, 이 단계에서 일부 인터넷 연결, 읽기/쓰기 등의 오류가 발생할 수 있습니다. 프록시게이트는 리캡챠 태스크를 오류 코드로 표시하고 태스크를 취소할 것입니다. 오류가 인터넷 연결 총합의 1% 미만일 경우 괜찮지만, 오류의 백분율이 더 높은 경우 다른 것으로 대체하거나 프록시 오프 모드를 이용하기 시작해야 한다는 의미입니다. 저희는 오류가 많이 있는 프록시를 이용하여 작업할 수 없습니다. 저희 작업자에 대해서 말하자면, 영구적인 시스템 문제처럼 보이며, 태스크는 항상 제자리 걸음이고, 작업자들은 돈을 받지 못합니다.
규칙:
- 1단계에서 프록시가 필터링되면 $0.0001을 공제합니다.
- 캡챠를 푸는 과정에서 프록시가 작동하지 않는 경우 태스크 비용 전액을 공제합니다. 왜냐하면 저희 작업자의 시간을 낭비하게 했기 때문입니다.
- 호스트명이 아닌 프록시 IP 주소만 수락됩니다.
- 프록시는 2초 이내로 반응해야 하며, 본래 IP 주소, 지원 SSL, 이미지 전송, 긴 주소 IRL을 숨겨야 하며 구글에서 차단당하지 않아야 합니다.
저희는 프록시 체커 툴을 이용하여 프록시가 저희 서비스에 호환되는지 여부를 확인합니다. 프록시 체커에서 성공적인 결과가 나온다고 해서 생산 시에 원활하고 오류 없게 캡챠가 풀릴 거라고 보장되지는 않습니다. ERROR_PROXY_CONNECT_REFUSED 혹은 ERROR_PROXY_CONNECT_TIMEOUT와 같은 오류를 받는 경우, 특정 시점에서 프록시가 작동하지 않았다는 의미입니다. 이러한 유형의 오류의 백분율이 높은 경우, 저희는 1시간 동안 이 프록시를 차단합니다.
저희에게 시중 최고의 프록시를 구매했다고 쓰고 말하지 말아주세요(특히, Luminati에서 제공하는 봇넷 쓰레기에 대해서). 최고의 프록시는 여러분이 전용 서버 혹은 충분한 렘(RAM) 메모리를 갖춘 VPS에 스스로 설치한 프록시입니다. 프록시를 판매하는 모든 서비스는 동일한 하드웨어 및 네트워크 인프라를 다른 고객에게 판매합니다. 전용 IP 주소가 있을 수도 있지만, 또 다른 100명의 고객과 100개의 IP가 있는 서버에 얽매여 있을 것입니다. 그리고 여러분은 서버에 어떤 하드웨어 환경 설정이 있을 수 있는지 절대 모를 겁니다.
그러니 저희는 여러분에게 SQUID 프록시 서버 소프트웨어를 이용하도록 권장합니다. 이 서버 소프트웨어는 C++로 작성되어 있으며 인터넷이 탄생한 이후로 이용되어 왔습니다. 한 번 자체 서버에 설치하시면, 설치했다는 사실도 잊어버리고 저희와 저희 작업자들이 여러분에게 정말 감사해 할 것입니다.
제 프록시에 액세스하는 데 어떤 IP를 이용하나요?
저희는 IP 78.46.86.231에서 프록시에 액세스합니다. 하지만, 이 IP 주소는 시간이 흐르면서 변경될 수 있습니다. 현재 액세스 주소를 얻을 수 있는 문서화되지 않은 방법은 다음과 같습니다.
https://api.anti-captcha.com/getProxygateAddress
https://api.anti-captcha.com/getProxygateAddress
타임아웃, 차단 등과 관련된 프록시 오류가 너무 많습니다.
많은 항목들이 최고 품질의 프록시를 통해서만 작동하기 때문에, 저희 시스템은 이러한 프록시로만 작동하도록 구축되어 있습니다. 프록시는 100% 신뢰할 수 있어야 합니다. 알고리즘은 자동으로 나쁜 프록시를 필터링하며 잠시 동안 차단할 수도 있습니다.
이유는 다음과 같습니다. 각 캡챠 태스크는 인간의 노동으로 처리됩니다. 그러므로 인간이 노동하는 데는 비용이 듭니다. 느린/고장난/차단된 프록시가 있는 캡챠 태스크가 많은 경우, 작업자들의 평균 수입이 하락하며, 작업자들은 다같이 경쟁사로 옮겨가기 위해서 저희 시스템을 떠나게 됩니다. 저희는 이런 일이 일어나기를 원하지 않습니다. 그리고 정말 정말 정말 저희 고객들은 가능한 한 최고의 프록시를 얻어야 합니다.
저희가 경험한 바로는, 최고의 프록시는 자체 VPS/전용 서버에 설치한 프록시입니다. 클라우드 VPS를 대여하고 SQUID 서버를 여기에 설치하세요. 설치 방법에 대한 세부 지침은 다음과 같습니다. 꽤 쉽죠.
이유는 다음과 같습니다. 각 캡챠 태스크는 인간의 노동으로 처리됩니다. 그러므로 인간이 노동하는 데는 비용이 듭니다. 느린/고장난/차단된 프록시가 있는 캡챠 태스크가 많은 경우, 작업자들의 평균 수입이 하락하며, 작업자들은 다같이 경쟁사로 옮겨가기 위해서 저희 시스템을 떠나게 됩니다. 저희는 이런 일이 일어나기를 원하지 않습니다. 그리고 정말 정말 정말 저희 고객들은 가능한 한 최고의 프록시를 얻어야 합니다.
저희가 경험한 바로는, 최고의 프록시는 자체 VPS/전용 서버에 설치한 프록시입니다. 클라우드 VPS를 대여하고 SQUID 서버를 여기에 설치하세요. 설치 방법에 대한 세부 지침은 다음과 같습니다. 꽤 쉽죠.
저의 프록시를 차단 해제할 수 있나요?
아니요, 저희는 프록시를 차단 해제해드리지 않습니다.
1. 프록시가 내려가면, 프록시를 이용하여 5분 이후에 태스크를 다시 제출할 수 있습니다. 저희가 이걸 확인할 것이며, 프록시가 작동한다면, 태스크를 계속 진행하세요.
2. 다른 모든 경우에(프록시에 타임아웃 오류가 생기거나, 구글이 프록시를 차단하거나, 오프라인 상태가 되는 등), 저희는 현재 시가 지날 때까지 프록시를 차단합니다.
저희 작업자들이 이러한 프록시를 통해서 작업을 하며, 프록시가 느려지거나 중단될 경우, 작업자들이 화가 나서 업무를 중단하기 때문에 이와 같이 조치하고 있씁니다.
신뢰할 수 있는 프록시를 제공할 수 없다면, API 설정의 API 덮어쓰기 섹션에서 'Force Recaptcha Proxyless'로 전환하세요. 여기에는 프록시가 전혀 필요하지 않습니다.
1. 프록시가 내려가면, 프록시를 이용하여 5분 이후에 태스크를 다시 제출할 수 있습니다. 저희가 이걸 확인할 것이며, 프록시가 작동한다면, 태스크를 계속 진행하세요.
2. 다른 모든 경우에(프록시에 타임아웃 오류가 생기거나, 구글이 프록시를 차단하거나, 오프라인 상태가 되는 등), 저희는 현재 시가 지날 때까지 프록시를 차단합니다.
저희 작업자들이 이러한 프록시를 통해서 작업을 하며, 프록시가 느려지거나 중단될 경우, 작업자들이 화가 나서 업무를 중단하기 때문에 이와 같이 조치하고 있씁니다.
신뢰할 수 있는 프록시를 제공할 수 없다면, API 설정의 API 덮어쓰기 섹션에서 'Force Recaptcha Proxyless'로 전환하세요. 여기에는 프록시가 전혀 필요하지 않습니다.
My proxies are good, but they're still not working with Anti-Captcha. What can I do?