Чому Anti-Captcha перевершує нову верифікацію жестами рук у reCAPTCHA від Google (а ШІ-розв'язувачі не можуть)
Google запровадив новий вид завдання reCAPTCHA: верифікація жестами рук. Замість того, щоб натискати на розмиті світлофори чи ставити галочку, відвідувача просять увімкнути камеру й виконати фізичний жест рукою — наприклад, показати певну кількість пальців, скласти певну форму або в реальному часі слідувати підказці на екрані. Це суттєвий перехід від статичних головоломок із зображеннями до живої, поведінкової верифікації за принципом «доведи, що ти справжня людина перед справжньою камерою».

У цій статті ми пояснюємо, як працює це завдання, чому суто автоматизованим ШІ-сервісам розв'язування капч важко з ним впоратися, і чому Anti-Captcha — сервіс, який спирається на реальних людей-працівників, — має унікальні можливості для його обробки.
Що таке завдання reCAPTCHA з жестами рук?
Згідно з власною документацією Google, завдання працює так: користувача просять надати дозвіл на камеру, а потім виконати дії рукою перед камерою. Система Google не зберігає необроблене відео; натомість вона витягує 21 координату суглобів руки (скелетний «каркас» руки) з потоку камери й використовує ці дані про орієнтири, щоб визначити, чи виконує запитуваний рух справжня, жива людина. За словами Google, відеозапис ніколи не прив'язується до особистості користувача й видаляється після завершення верифікації, а аудіо ніколи не записується. Для користувачів, які не можуть виконувати жести, reCAPTCHA продовжує пропонувати традиційні візуальні та аудіозавдання.
Технічно розпізнавання жестів побудоване на тому самому сімействі технологій, що й MediaPipe Hand Landmarker від Google, яка виявляє 21 точну точку суглобів руки на кожній руці, відрізняє ліву від правої й відстежує руку через кадри відео в реальному часі. Тому верифікація — це не один знімок, а безперервний потік руху, який має виглядати біомеханічно й часово як справжня рука, що рухається в реальному просторі.
Чому це так складно подолати
Класичні капчі перевіряють розпізнавання: чи можете ви прочитати цей текст, чи можете знайти велосипеди. Це одноразові, статичні задачі, які сучасний комп'ютерний зір зрештою наздоганяє. Верифікація жестами рук перевіряє щось фундаментально інше — живість і втіленість. Вона запитує: чи є фізична, тривимірна людська рука перед справжньою камерою, що реагує на вимогу, з природними мікрорухами, реакцією на освітлення, глибиною й таймінгом живої людини?
Це повністю змінює правила гри. Завдання поєднує одразу кілька сигналів:
- Взаємодія в реальному часі — жест має бути виконаний на вимогу, у відповідь на підказку, протягом певного часового вікна. Немає статичного об'єкта для попереднього аналізу.
- 3D-живість — справжня рука має глибину, паралакс, текстуру шкіри, тіні й природне тремтіння, яких немає у плаского зображення чи зацикленого кліпу.
- Часова узгодженість — рух має бути безперервним і фізично правдоподібним від кадру до кадру, відповідаючи скелету руки з 21 точки в часі.
- Апаратні сигнали — метадані камери, частота кадрів, шум сенсора й оточення — усе це впливає на рішення «чи це справжній захоплений запис?».
Чому ШІ-розв'язувачі капч тут зазнають невдачі
ШІ-сервіси розв'язування капч чудово розпізнають пікселі. Вони не призначені для того, щоб фізично існувати перед камерою. Завдання з жестами рук атакує саме той розрив, який автоматизовані розв'язувачі не можуть закрити:
- Тут немає чого «розпізнавати». ШІ-розв'язувач отримує зображення й повертає відповідь. Тут немає зображення для надсилання — система вимагає живого потоку з камери з рукою, що рухається. Розв'язувачеві довелося б згенерувати переконливу людську руку в реальному часі, а не класифікувати картинку.
- Синтетичні руки потрапляють у пастку. Щоб обдурити завдання за допомогою ШІ, потрібно було б створити фотореалістичний 3D-діпфейк руки в реальному часі й передати його через віртуальну камеру. Виявлення живості спеціально розроблене, щоб помічати саме це: віртуальним камерам, відтвореним кліпам і відрендереним рукам бракує підказок глибини, шуму сенсора й природної мінливості справжнього захоплення, і вони рідко витримують свіжий, випадково запитаний жест.
- Підказки динамічні. Оскільки запитуваний жест і таймінг змінюються, попередньо відрендерена чи кешована відповідь не працює. «Розв'язувачеві» доводиться щоразу імпровізувати абсолютно новий, фізично коректний рух — тривіально для людини, надзвичайно важко переконливо підробити в масштабі.
- Планка точності постійно зростає. Щоразу, коли генеративна модель стає достатньо хорошою, щоб підробити жест, Google може скоригувати пороги виявлення й додати нові поведінкові сигнали. Статичне розпізнавання ШІ завжди на крок позаду цілі живості, яка спроєктована для руху.
Чому Anti-Captcha — правильна відповідь
Anti-Captcha не є ШІ-сервісом. У його основі — глобальна мережа реальних людей-працівників. Коли завдання фундаментально вимагає справжньої людини — справжньої руки, справжньої камери, справжньої реакції — найнадійніший і перспективний спосіб його пройти — це доручити справжній людині зробити саме те, що вимагає завдання. Саме це й надає Anti-Captcha.
- Справжня людська живість. Жива людина зі справжньою камерою забезпечує глибину, рух і природну мінливість, які шукає виявлення живості, — а не рендер, який має «перемогти» детектор.
- Миттєво адаптується до будь-якого нового жесту. Люди розуміють і виконують нові підказки без перенавчання моделі. Коли Google змінює набір жестів або процес, наші працівники просто слідують новим інструкціям — оновлення моделі не потрібне.
- Стійкість до оновлень виявлення. Оскільки роботу виконує справжня людина, посилення порогів захисту від підробки не порушує цей підхід так, як воно порушує синтетичні/ШІ-спроби. Справжні люди — це той єдиний вхідний дані, який тест «доведи, що ти людина» призначений приймати.
- Той самий простий API, який ви вже використовуєте. Anti-Captcha надає один узгоджений JSON API (createTask → getTaskResult) для кожного типу капчі. У міру додавання підтримки нових інтерактивних завдань ви інтегруєте їх так само, як інтегруєте reCAPTCHA, Turnstile чи капчі із зображеннями сьогодні.
- Швидкість і масштаб. Великий, завжди доступний пул працівників означає, що завдання обробляються швидко й цілодобово, з ендпоінтами звітності для позначення й повернення коштів за невдалі спроби.
Підсумок
Верифікація жестами рук від Google навмисно створена для того, щоб зупинити автоматизацію, вимагаючи того, що природно може надати лише справжня людина перед справжньою камерою. Саме тому суто ШІ-розв'язувачі впираються у стіну — і саме тому сервіс на основі людей, як-от Anti-Captcha, є природним рішенням. У міру того, як індустрія капч переходить від «розпізнай це зображення» до «доведи, що ти жива людина», перевага рішуче переходить до сервісів, у основі яких — реальні люди.
Хочете інтегрувати розв'язування reCaptcha від Anti-Captcha у свій застосунок? Почніть з документації API і створення облікового запису.