Як Працює OCR-Сканування Чеків: Повний Посібник

Дізнайтеся, як OCR-сканування перетворює паперові чеки на цифрові дані — від захоплення зображення до вилучення окремих позицій. Зрозумійте технологію обробки чеків.

Yulia Lit

Дослідниця споживчої психології та поведінкової економіки

Mar 23, 2026

14 min read

Технології Особисті Фінанси Фінансові Поради#як працює ocr сканування чеків#обробка ocr чеків#ocr сканування чеків#вилучення даних ocr чека#формат чека ocr#позиції ocr чека#сканер чеків ocr

Як Працює OCR-Сканування Чеків: Повний Посібник

Лише у США щороку друкується близько 60 мільярдів паперових чеків — більшість із них містять дані про покупки, які впродовж кількох годин зникають у кишенях, гаманцях і кошиках для сміття. OCR-сканування чеків — це технологія, яка відновлює ці дані, перетворюючи зображення надрукованих чеків на структуровані, доступні для пошуку цифрові записи.

Але «OCR» — це не один крок, а багатоетапний конвеєр, де кожен етап вносить потенційні помилки, які накопичуються протягом усього процесу. Розуміння роботи кожного етапу допомагає оцінити, які інструменти сканування чеків справді виконують обіцянки точності, а які — лише маркетинг.

Цей посібник охоплює повний конвеєр OCR-сканування чеків: від фотона, що потрапляє на сенсор камери, до структурованого JSON з назвою продавця, окремими позиціями та підсумковою сумою.

Ключові Висновки

OCR-сканування чеків включає 6 окремих етапів: захоплення зображення, попередня обробка, виявлення тексту, розпізнавання символів, вилучення полів і валідація
Попередня обробка (покращення контрасту, виправлення нахилу, видалення шуму) відповідає за 20–30% кінцевої точності — більше, ніж усвідомлює більшість користувачів
Сучасний OCR для чеків використовує глибоке навчання (мережі LSTM та трансформери), а не зіставлення шаблонів
Вилучення полів — зіставлення сирого тексту зі структурованими даними — це найскладніший етап, де більшість інструментів різняться за якістю
Вилучення окремих позицій у 3–5 разів складніше, ніж вилучення підсумку/продавця через складність макета чека
Вдосконалені методи валідації (багатопрохідна обробка, математична перехресна перевірка) знижують рівень помилок на 30–40%

6 Етапів OCR-Сканування Чеків

Сканування чека — це не «наведи камеру — отримай дані». Кожен етап конвеєра перетворює вхідні дані та визначає, з чим працюватиме наступний етап. Помилка на одному етапі поширюється через всю подальшу обробку.

Interactive Guide

The 6-Stage OCR Receipt Scanning Pipeline

Click each stage to explore how receipts are transformed from paper to structured data.

📷

Stage 1

Image Capture

The receipt is photographed via smartphone camera, imported as a file, or scanned on a flatbed scanner. Auto-focus, exposure compensation, and edge detection optimize the raw image. Resolution of 300–600 DPI equivalent is sufficient; higher resolution rarely improves accuracy. The key factor is even lighting and a flat receipt surface.

Impact on final accuracy: Sets the ceiling for all downstream stages. A poor capture (motion blur, shadows, partial framing) caps maximum accuracy at 70–80% regardless of engine quality.

📷 Paper receipt

📊 Structured data

Етап 1: Захоплення Зображення

Перший етап оманливо простий: внести зображення чека до системи. Але якість цього зображення визначає верхню межу для всього наступного.

Захоплення Камерою (Мобільні Додатки)

Коли ви фотографуєте чек мобільним додатком, таким як Yomio або Expensify, камерний модуль додатка виконує кілька автоматичних налаштувань:

Автофокус фіксується на тексті чека (деякі додатки використовують виявлення тексту для наведення фокуса)
Корекція експозиції адаптується до навколишнього освітлення
Виявлення країв визначає межі чека на тлі поверхні
Корекція перспективи починається тут — додаток ідентифікує чек як прямокутний документ і спрямовує вирівнювання

Сучасні смартфони захоплюють 12–50 мегапікселів, що дає набагато більше роздільної здатності, ніж реально потрібно OCR. Надлишкова роздільна здатність корисна, оскільки витримує обрізання та попередню обробку без втрати критичних деталей.

Захоплення Сканером (Настільний ПК)

Планшетні сканери створюють зображення вищої якості, ніж камери телефонів: рівномірне освітлення, відсутність спотворень перспективи, точний контроль DPI. При 300 DPI стандартна ширина касового чека (80 мм) дає близько 945 пікселів горизонтальної роздільної здатності — більш ніж достатньо для OCR.

Компроміс — зручність. Сканування на настільному ПК вимагає збирання чеків і подальшої пакетної обробки, створюючи затримку, через яку руйнується більшість звичок обліку витрат.

Імпорт Файлів (PDF, Зображення)

Багато OCR-систем приймають наявні зображення або PDF-файли. Це актуально для цифрових чеків (вкладення електронної пошти, PDF-рахунки) та для повторної обробки раніше відсканованих документів через кращий OCR-рушій.

Information

Перед обробкою OCR-рушії зазвичай зменшують зображення до еквівалента 300–600 DPI. Фото смартфона 12 МП на звичайній відстані сканування дає близько 400–600 ефективних DPI на тексті чека — у межах оптимального діапазону. Вища роздільна здатність рідко покращує точність; краще освітлення та пласка поверхня дають більший ефект.

Етап 2: Попередня Обробка Зображення

Попередня обробка перетворює необроблене зображення з камери на чисте, стандартизоване введення для OCR-рушія. Цей етап відповідає за 20–30% кінцевої точності та є областю, в яку більшість безкоштовних або базових OCR-інструментів вкладає недостатньо.

Виправлення Нахилу (Deskewing)

Чеки, сфотографовані під кутом, дають нахилені рядки тексту. Алгоритми виправлення нахилу визначають домінантний кут рядків тексту (через перетворення Хафа або аналогічні методи виявлення країв) і повертають зображення для горизонтального вирівнювання тексту. Навіть нахил у 3–5° може знизити точність розпізнавання символів на 5–10%.

Корекція Перспективи

Коли чек фотографується зверху під кутом, а не строго перпендикулярно, зображення показує спотворення перспективи: текст нагорі виглядає вужчим, ніж текст внизу. Чотириточкове перетворення перспективи відображає спотворений прямокутник на справжній прямокутник.

Бінаризація

OCR-рушії найкраще працюють із зображеннями в чорно-білому кольорі з високим контрастом. Бінаризація перетворює зображення у відтінках сірого або кольорове на чисто чорний (текст) і білий (фон). Це здається простим, але чеки ускладнюють завдання:

Термопапір має природно низький контраст навіть коли новий
Вицвілі чеки можуть мати співвідношення контрасту менше 2:1
Фонові узори (деякі чеки друкують логотипи або водяні знаки за текстом) створюють шум

Адаптивна порогова обробка — локальне налаштування точки перемикання чорний/білий у різних областях зображення — справляється з цими проблемами краще, ніж єдиний глобальний поріг.

Видалення Шуму

Після бінаризації залишаються дрібні артефакти: частинки пилу, текстура паперу, краплі чорнила від сусіднього тексту. Морфологічні операції (ерозія з подальшою дилатацією) видаляють ізольовані пікселі шуму, не руйнуючи структуру тексту. Розмір ядра потрібно ретельно підбирати — надто агресивна обробка призводить до зникнення тонких символів (крапок і ком).

Покращення Контрасту

Для вицвілого термопаперу вирівнювання гістограми або CLAHE (Адаптивне вирівнювання гістограми з обмеженням контрасту) дозволяє відновити читабельний текст із зображень, які здаються майже порожніми людському оку. Саме завдяки цьому деякі додатки здатні читати вицвілі чеки 3–6-місячної давності, які виглядають нечитабельними.

Warning

Хімія термопаперу змушує чеки поступово вицвітати з моменту друку. Через 6 місяців багато чеків втратили 40–60% контрасту друку. Через 12 місяців деякі стають повністю нечитабельними в багатьох умовах — жодна попередня обробка не може відновити хімічно зниклий текст. Скануйте чеки упродовж 24 годин для максимальної точності.

Етап 3: Виявлення Тексту

Виявлення тексту визначає, де на попередньо обробленому зображенні є текст — не що говорить текст, а які ділянки пікселів містять текст на відміну від фону, логотипів, штрихкодів або порожнього простору.

Аналіз Зв'язних Компонент

Традиційний підхід групує з'єднані чорні пікселі в компоненти, потім класифікує компоненти як кандидати в текстові символи на основі розміру, співвідношення сторін і просторових зв'язків. Горизонтально близькі та вертикально вирівняні символи групуються в рядки тексту.

Виявлення за Допомогою Глибокого Навчання

Сучасні OCR-рушії використовують CNN (згорткові нейронні мережі) для безпосереднього виявлення текстових областей. Архітектури EAST (Efficient and Accurate Scene Text Detector) або CRAFT (Character Region Awareness for Text Detection) ідентифікують текстові зони без опори на евристичні зв'язні компоненти, справляючись із складними сценаріями:

Текст, що перекриває графічні елементи
Дуже дрібний текст (виноски, телефонні номери магазину)
Повернутий або вигнутий текст (кругові логотипи з текстом довкола)

Специфічні Проблеми Чеків

Чеки становлять унікальні завдання виявлення тексту:

Щільні макети: Рядки тексту в чеках часто упаковані щільніше, ніж у стандартних документах
Змішаний вміст: Штрихкоди, QR-коди, логотипи та текст співіснують у тісній близькості
Колонкові структури: Ціни вирівняні по правому краю, описи — по лівому, з мінливими проміжками між ними
Роздільники: Тире, знаки рівності або зірочки, що використовуються як візуальні роздільники, не повинні плутатися з текстовим вмістом

Етап 4: Розпізнавання Символів

Це етап, про який думає більшість людей, кажучи «OCR». За наявності виявлених текстових областей рушій ідентифікує кожен окремий символ.

Як Сучасний OCR Розпізнає Символи

Старий підхід (зіставлення шаблонів): Порівнює кожне зображення символу з бібліотекою відомих шаблонів символів. Швидко, але крихко — дає збої при невідомих шрифтах, пошкоджених символах або нестандартних проміжках.

Поточний підхід (глибоке навчання): Мережі LSTM (Long Short-Term Memory) послідовно обробляють зображення рядків тексту, навчаючись розпізнавати патерни символів у контексті. Неоднозначність «0» vs «О» вирішується за навколишніми символами та позицією символу в полі.

Сучасний стан (моделі-трансформери): Архітектури Vision Transformer (наприклад, TrOCR від Microsoft) обробляють цілі текстові області як послідовності, досягаючи вищої точності на деградованому або незвичному тексті за рахунок використання ширшого контексту.

Функція Втрат CTC

Більшість сучасних OCR-рушіїв використовують CTC (Connectionist Temporal Classification) під час навчання, що дозволяє мережі навчатися послідовностям символів без необхідності точної посимвольної сегментації. Це критично для чеків, де міжсимвольний інтервал нерегулярний, а символи іноді торкаються або перекриваються.

Точність на Рівні Символу vs. Слова

Точність на рівні символу вимірює правильність окремих символів: якщо «КУРКА» читається як «КУРKА», це 4/5 = 80% точності на рівні символу
Точність на рівні слова вимірює цілі слова: «КУРKА» — помилка на рівні слова (0% для цього слова)
Заяви про OCR-чеки зазвичай наводять точність на рівні символу, тому що цифри вищі

Для практичного використання точність на рівні слова важливіша — неправильно написана назва товару так само марна, як і відсутня, коли ви хочете категоризувати покупки.

Tip

Цифра «1» і літера «l» (рядкова L) візуально ідентичні в багатьох шрифтах чеків. OCR-рушії вирішують цю неоднозначність за допомогою контексту: у полі ціни «1» правильна з переважаючою ймовірністю; у полі назви товару «l» більш вірогідна. Саме тому OCR-рушії, специфічні для чеків — що розуміють структуру полів чеків, — перевершують загальне розпізнавання тексту на даних чеків.

Етап 5: Вилучення Полів (Найскладніша Частина)

Сирий вивід OCR з 4-го етапу — це плаский текстовий потік розпізнаних символів. Вилучення полів зіставляє цей текст зі структурованими даними: який текст є назвою продавця, який — окремою позицією, який — підсумковою сумою.

Саме тут специфічна для чеків навченість відрізняє професійні інструменти від базового OCR. Універсальний OCR-рушій, що читає чек, видає щось на зразок:

АТБ Маркет
вул. Центральна, 12
Київ, 01001
ІПН: 12345678901

Banana органічна    28,90
Молоко 1л           37,50
Сир Гауда           95,00
Хліб цільнозерн.    32,00
Табл. для ПММ      124,00

РАЗОМ ТОВАРИ       317,40
ПДВ                  0,00
ДО СПЛАТИ          317,40
КАРТКА ****2345

Рушій вилучення полів, навчений на чеках, перетворює це на:

{
  "продавець": "АТБ Маркет",
  "адреса": "вул. Центральна, 12, Київ, 01001",
  "дата": "2026-03-22",
  "позиції": [
    {"назва": "Банан органічна", "ціна": 28.90},
    {"назва": "Молоко 1л", "ціна": 37.50},
    {"назва": "Сир Гауда", "ціна": 95.00},
    {"назва": "Хліб цільнозерновий", "ціна": 32.00},
    {"назва": "Таблетки для ПММ", "ціна": 124.00}
  ],
  "проміжний_підсумок": 317.40,
  "податок": 0.00,
  "підсумок": 317.40,
  "спосіб_оплати": "Картка, що закінчується на 2345"
}

Чому Вилучення Окремих Позицій Таке Складне

Вилучення підсумкової суми відносно просте: це зазвичай найбільше число в нижній частині чека, якому передує «РАЗОМ» або аналог.

Окремі позиції складні, тому що:

Немає універсального формату: Кожен продавець форматує чеки по-своєму — ширина стовпців, стилі абревіатур, розташування цін і роздільники варіюються в тисячах касових систем
Скорочені назви: «КУР ГРИЛЬ Б/К» потребує предметних знань для інтерпретації як «Курка Гриль без кістки»
Багаторядкові позиції: Деякі позиції займають два рядки (опис в одному, ціна в наступному; або рядок знижки під позицією)
Модифікатори ціни: «1+1», ціноутворення за вагою («2,340 кг × 65 грн/кг»), знижки за картою лояльності та коригування купонів створюють складні цінові структури
Нетоварні рядки: Заголовки, нижні колонтитули, маркетингові повідомлення та правила магазину перемежовуються з даними покупок

Для детального аналізу того, які дані сучасні рушії можуть вилучати, прочитайте наш посібник з вилучення даних OCR чеків.

Етап 6: Валідація та Постобробка

Останній етап перевіряє внутрішню узгодженість вилучених даних:

Математична валідація: Складаються чи ціни позицій у проміжний підсумок? Проміжний підсумок + податок = підсумок?
Валідація формату: Дата у допустимому форматі? Підсумок — позитивне число?
Оцінка впевненості: Рушій привласнює кожному вилученому полю оцінку впевненості (0–100%), дозволяючи додатку позначати вилучення з низькою впевненістю для перевірки користувачем
Пошук у базі даних продавців: Деякі рушії зіставляють вилучені назви продавців з базами даних відомих продавців для виправлення орфографії та стандартизації назв

Багатопрохідна Валідація

Прогресивні системи, такі як Yomio, використовують багатопрохідну обробку з користувацькими моделями, навченими на чеках, для перехресної перевірки результатів. Рушій виконує кілька проходів вилучення та об'єднує результати. Де проходи збігаються — впевненість висока. Де розходяться — система може:

Вибрати результат з вищою впевненістю
Позначити поле для перевірки користувачем
Застосувати евристику, засновану на правилах (напр.: якщо один рушій читає «317 грн», а інший — «321 грн», а позиції в сумі дають 317 грн, перший результат перемагає)

Цей багатопрохідний підхід знижує загальний рівень помилок на 30–40% порівняно з однопрохідною обробкою, тому Yomio досягає 92% точності за позиціями там, де базові OCR-додатки зазвичай дають 75–85%.

Success

Кінцева точність OCR для чеків — це добуток усіх шести етапів. Якщо кожен етап точний на 97% незалежно, то сукупна точність становить 0,97⁶ = 83,3%. Саме тому покращення одного етапу — навіть на кілька відсоткових пунктів — має вимірний вплив на наскрізну точність. І чому інвестиції в попередню обробку (етап 2) приносять непропорційні дивіденди.

OCR-Сканування Чеків: Поширені Формати та Проблеми

Чеки на Термопапері (Найпоширеніші)

~90% касових чеків друкується на термопапері з термочутливим покриттям, а не чорнилом. Термодрук створює:

Стабільну якість символів, коли папір новий
Чутливість до тепла, сонячного світла та впливу хімічних речовин
Поступове вицвітання, що починається відразу після друку
Повну нечитабельність після 12–24 місяців в багатьох умовах

Чеки, Надруковані Чорнилом

Матричні та струменеві чеки (поширені в старих касових системах і ручних принтерах для рахунків) використовують справжнє чорнило, яке хімічно не вицвітає. Однак вони часто мають нижчу якість друку: нерівномірна товщина символів, клякси чорнила та менша роздільна здатність. Точність OCR матричного виводу зазвичай на 5–10% нижча, ніж у свіжих термодрукованих чеків.

Цифрові Чеки (Email/PDF)

Цифрові чеки повністю пропускають етапи захоплення зображення та попередньої обробки. Текст можна вилучити безпосередньо з PDF або HTML листа без OCR, досягаючи майже 100% точності вилучення тексту. Тим не менш вилучення полів потребує розуміння формату чека для правильного структурування даних.

Міжнародні Формати Чеків

Формати чеків суттєво різняться залежно від країни:

США/Великобританія: Позиції вирівняні вліво, ціни — вправо, крапка як десятковий роздільник
Континентальна Європа: Кома як десятковий роздільник (€13,63), іноді суми справа наліво
Арабомовні країни: Напрямок тексту справа наліво, арабські або західні цифри, вміст на суміші мов
Східна Азія: Ієрогліфічні назви товарів, вертикальний або горизонтальний текст, символи змінної ширини

Підтримка цих форматів потребує мовно-специфічних OCR-моделей та культурного розуміння форматів, а не лише розпізнавання символів.

Майбутнє OCR-Сканування Чеків

Великі Мовні Моделі (LLM) для Вилучення Полів

Остання розробка в OCR чеків — використання LLM на етапі вилучення полів. Замість вилучення полів на основі правил або CNN необроблений OCR-текст подається в мовну модель, яка контекстуально розуміє структуру чека. Перші результати показують покращення точності на 5–10% на складних чеках, особливо для:

Розв'язання абревіатур назв товарів
Обробки незвичайних макетів чеків, що не зустрічалися в навчальних даних
Багатомовних чеків зі змішаними писемностями

Обробка на Пристрої

Фреймворки машинного навчання на пристрої від Apple і Google (Core ML, ML Kit) переносять OCR чеків на граничні пристрої, знижуючи затримку та забезпечуючи офлайн-сканування. Поточна точність на пристрої на 10–15% поступається хмарній обробці, але розрив скорочується з кожним поколінням обладнання.

Структуровані Цифрові Чеки

Довгострокове вирішення проблем OCR чеків — це повне усунення необхідності в OCR. Стандарти типу Digital Receipt Interchange Standard (DRIS) пропонують машиночитанні формати чеків, що передаються в цифровому вигляді на касі. Впровадження йде повільно — для цього потрібне оновлення касових систем у мільйонів роздрібних продавців, — але імпульс зростає в ЄС і Великобританії.

Поширені Запитання

Наскільки точне OCR-сканування чеків у 2026 році? Топові хмарні рушії досягають 90–95% точності на рівні полів і 85–92% точності за окремими позиціями для стандартних чеків. Користувацький рушій Yomio досягає 92%+ точності за позиціями. Точність знижується при роботі з вицвілим термопапером, нестандартними макетами та рукописним текстом.

Чи може OCR обробляти зім'яті або пошкоджені чеки? Сучасна попередня обробка може відновлювати текст помірно зім'ятих чеків за допомогою виправлення нахилу та локального покращення контрасту. Сильно пошкоджені чеки (розірвані, замочені або сильно складені по рядках тексту) можуть давати неповні результати. Розгладження чека перед скануванням суттєво покращує результати.

Чому однаковий OCR-рушій дає різні результати на різних чеках? Основний чинник — варіативність макета чеків. Чек великої національної мережі з уніфікованою касовою системою дасть стабільні, дуже точні результати. Чек невеликого місцевого магазину зі старим принтером може показувати меншу точність через нестандартне форматування, вибір шрифту та якість друку.

Чим OCR-сканування чеків відрізняється від звичайного OCR? Звичайний OCR перетворює зображення на текст. OCR чеків додає вилучення полів: розуміння того, який текст є назвою продавця, який — датою, які — позиціями та який — підсумковою сумою. Ця специфічна для чеків інтелектуальність потребує навчання на мільйонах зразків чеків і розуміння патернів макетів.

У чому різниця між OCR і ICR? OCR (оптичне розпізнавання символів) оптимізоване для машинодрукованого тексту. ICR (інтелектуальне розпізнавання символів) обробляє рукописний текст. Більшість додатків для сканування чеків використовують лише OCR, оскільки чеки друкуються машинним способом. ICR актуальний для рукописних рахунків або нотаток про витрати.

Побачити OCR-Сканування Чеків у Дії

Користувацький OCR-рушій Yomio вилучає кожну позицію з ваших чеків за секунди. Відскануйте наступний чек із магазину — оцініть різницю, яку дають дані на рівні товарів.

Завантажити Yomio безкоштовно

Ще від Yomio