Jak Działa Skanowanie Paragonów OCR: Kompletny Przewodnik

Dowiedz się, jak skanowanie OCR przekształca papierowe paragony w dane cyfrowe — od przechwytywania obrazu do ekstrakcji poszczególnych pozycji. Zrozum technologię przetwarzania paragonów.

Yulia Lit

Badaczka Psychologii Konsumenta i Ekonomii Behawioralnej

Mar 23, 2026

15 min read

Technologia Finanse Osobiste Porady Finansowe#jak działa skanowanie paragonów ocr#ocr przetwarzanie paragonów#ocr skanowanie paragonów#ocr ekstrakcja danych z paragonów#ocr formaty paragonów#ocr paragony poszczególne pozycje#skaner paragonów ocr

Jak Działa Skanowanie Paragonów OCR: Kompletny Przewodnik

Tylko w Stanach Zjednoczonych drukuje się rocznie około 60 miliardów papierowych paragonów — większość zawiera dane zakupowe, ale znika w kieszeniach, portfelach i koszach w ciągu kilku godzin. Skanowanie paragonów OCR to technologia, która odzyskuje te dane i przekształca drukowane obrazy paragonów w ustrukturyzowane, przeszukiwalne cyfrowe rekordy.

Ale "OCR" to nie jeden krok — to wieloetapowy potok, w którym każdy etap wprowadza potencjalne błędy, które narastają przez cały proces. Zrozumienie mechanizmu każdego etapu pozwala ocenić, które narzędzia do skanowania paragonów rzeczywiście dotrzymują obietnic dotyczących dokładności, a które to tylko marketing.

Ten przewodnik omawia cały proces skanowania paragonów OCR — od fotonów trafiających na czujnik aparatu do strukturalnego JSON zawierającego nazwę sklepu, poszczególne pozycje i sumy.

Kluczowe Punkty

Skanowanie paragonów OCR ma 6 odrębnych etapów: przechwytywanie obrazu, wstępne przetwarzanie, wykrywanie tekstu, rozpoznawanie znaków, ekstrakcja pól i walidacja
Wstępne przetwarzanie (poprawa kontrastu, prostowanie, usuwanie szumów) odpowiada za 20–30% ostatecznej dokładności — znacznie więcej, niż większość użytkowników zdaje sobie sprawę
Nowoczesne OCR paragonów używa głębokiego uczenia (sieci LSTM i Transformer), nie dopasowywania szablonów
Ekstrakcja pól — mapowanie surowego tekstu do ustrukturyzowanych danych — to najtrudniejszy etap i miejsce, w którym większość narzędzi różnicuje się jakością
Ekstrakcja poszczególnych pozycji jest 3–5 razy trudniejsza niż ekstrakcja sumy/nazwy sklepu, ze względu na złożoność układu paragonu
Zaawansowane techniki walidacji (wieloprzebiegowe przetwarzanie, matematyczne sprawdzanie krzyżowe) zmniejszają wskaźniki błędów o 30–40%

6 Etapów Skanowania Paragonów OCR

Skanowanie paragonów to nie "skieruj aparat na paragon i uzyskaj dane". Każdy krok w potoku przekształca dane wejściowe i określa, z czym pracuje następny krok. Błędy w jednym etapie przenoszą się na całe dalsze przetwarzanie.

Interactive Guide

The 6-Stage OCR Receipt Scanning Pipeline

Click each stage to explore how receipts are transformed from paper to structured data.

📷

Stage 1

Image Capture

The receipt is photographed via smartphone camera, imported as a file, or scanned on a flatbed scanner. Auto-focus, exposure compensation, and edge detection optimize the raw image. Resolution of 300–600 DPI equivalent is sufficient; higher resolution rarely improves accuracy. The key factor is even lighting and a flat receipt surface.

Impact on final accuracy: Sets the ceiling for all downstream stages. A poor capture (motion blur, shadows, partial framing) caps maximum accuracy at 70–80% regardless of engine quality.

📷 Paper receipt

📊 Structured data

Etap 1: Przechwytywanie Obrazu

Pierwszy etap brzmi prosto: wprowadzenie obrazu paragonu do systemu. Ale jakość obrazu wyznacza sufit dla całego dalszego przetwarzania.

Przechwytywanie Aparatem (Aplikacje Mobilne)

Gdy fotografujesz paragon aplikacją mobilną, taką jak Yomio lub Expensify, moduł aparatu aplikacji wykonuje kilka automatycznych dostosowań:

Autofokus blokuje się na tekście paragonu (niektóre aplikacje używają wykrywania tekstu do prowadzenia ostrości)
Korekta ekspozycji dostosowuje się do otaczającego oświetlenia
Wykrywanie krawędzi identyfikuje granicę paragonu względem powierzchni tła
Korekcja perspektywy zaczyna się tutaj — aplikacja rozpoznaje paragon jako prostokątny dokument i prowadzi wyrównanie

Nowoczesne smartfony rejestrują obrazy 12–50 megapikseli, znacznie więcej rozdzielczości niż OCR faktycznie potrzebuje. Nadmierna rozdzielczość jest przydatna, bo przeżywa przycinanie i wstępne przetwarzanie bez utraty kluczowych szczegółów.

Przechwytywanie Skanerem (Desktop)

Skanery płaskie produkują obrazy wyższej jakości niż aparaty mobilne: równomierne oświetlenie, brak zniekształcenia perspektywy, precyzyjna kontrola DPI. Przy 300 DPI standardowa szerokość paragonu (80mm) daje około 945 pikseli poziomej rozdzielczości — więcej niż wystarczy dla OCR.

Kompromisem jest wygoda. Skanowanie desktopowe wymaga zbierania paragonów i przetwarzania ich partiami, co tworzy opóźnienie będące powodem, dla którego większość rutyn zarządzania paragonami kończy się niepowodzeniem.

Import Pliku (PDF, Obrazy)

Wiele systemów OCR akceptuje istniejące pliki obrazów lub PDF. Jest to istotne dla paragonów cyfrowych (załączniki e-mail, faktury PDF) lub ponownego przetwarzania wcześniej zeskanowanych dokumentów przy użyciu lepszych silników OCR.

Information

Silniki OCR zazwyczaj skalują obrazy do odpowiednika 300–600 DPI przed przetwarzaniem. Zdjęcie 12 MP ze smartfona zrobione z normalnej odległości skanowania daje około 400–600 efektywnych DPI na tekście paragonu — w optymalnym zakresie. Wyższa rozdzielczość rzadko poprawia dokładność; lepsze oświetlenie i płaska powierzchnia robią znacznie większą różnicę.

Etap 2: Wstępne Przetwarzanie Obrazu

Wstępne przetwarzanie przekształca surowe zdjęcie z aparatu w czyste, ustandaryzowane dane wejściowe dla silnika OCR. Ten etap odpowiada za 20–30% ostatecznej dokładności i jest częścią, w którą większość darmowych lub podstawowych narzędzi OCR nie inwestuje wystarczająco.

Prostowanie (Deskewing)

Paragony sfotografowane pod kątem produkują krzywe linie tekstu. Algorytmy prostowania wykrywają główny kąt linii tekstu (używając transformacji Hough lub podobnych metod wykrywania krawędzi) i obracają obraz, by wyrównać tekst poziomo. Nawet 3–5° nachylenia może zmniejszyć dokładność rozpoznawania znaków o 5–10%.

Korekcja Perspektywy

Gdy paragon jest fotografowany pod kątem zamiast bezpośrednio z góry, pojawia się zniekształcenie perspektywy: tekst u góry wydaje się węższy niż tekst u dołu. Cztero-punktowa transformacja perspektywy odwzorowuje zniekształcony prostokąt na prawdziwy prostokąt.

Binaryzacja

Silniki OCR działają najlepiej z obrazami o wysokim kontraście w skali czarno-białej. Binaryzacja konwertuje obrazy w skali szarości lub kolorowe na czysty czarny (tekst) i biały (tło). To brzmi prosto, ale paragony to utrudniają:

Papier termiczny ma naturalnie niski kontrast, nawet gdy jest nowy
Wyblakłe paragony mogą mieć stosunek kontrastu poniżej 2:1
Wzory tła (niektóre paragony drukują logo lub znaki wodne za tekstem) tworzą szum

Adaptywne progowanie — dostosowywanie lokalnie punktu przełączenia biały/czarny w różnych obszarach obrazu — radzi sobie z tymi wyzwaniami lepiej niż jeden globalny próg.

Usuwanie Szumów

Nawet po binaryzacji pozostają małe artefakty: cząstki kurzu, tekstura papieru, plamy atramentu z sąsiedniego tekstu. Operacje morfologiczne (erozja po której następuje dylatacja) usuwają izolowane piksele szumów nie niszcząc struktury tekstu. Rozmiar jądra musi być dokładnie skalibrowany — zbyt agresywny i cienkie znaki jak kropki i przecinki znikają.

Poprawa Kontrastu

Dla wyblakłych paragonów termicznych wyrównywanie histogramu lub CLAHE (Contrast Limited Adaptive Histogram Equalization) może przywrócić czytelny tekst z obrazów wyglądających prawie na puste dla ludzkiego oka. Dlatego niektóre aplikacje mogą odczytać wyblakłe paragony sprzed 3–6 miesięcy, które wyglądają prawie nieczytelnie.

Warning

Chemia papieru termicznego oznacza, że paragony zaczynają stopniowo blaknąć od momentu wydrukowania. Po 6 miesiącach wiele paragonów straciło 40–60% kontrastu druku. Po 12 miesiącach w wielu warunkach wiele paragonów jest prawie nieczhytelnych — wstępne przetwarzanie nie może przywrócić tekstu, który chemicznie zniknął. Aby uzyskać najlepszą dokładność, skanuj paragony w ciągu 24 godzin.

Etap 3: Wykrywanie Tekstu

Wykrywanie tekstu identyfikuje gdzie w przetworzonym wstępnie obrazie znajduje się tekst — nie co tekst mówi, ale które obszary pikseli zawierają tekst w odróżnieniu od tła, logo, kodów kreskowych lub pustej przestrzeni.

Analiza Połączone Składowych

Tradycyjne podejście grupuje połączone czarne piksele w składowe, a następnie klasyfikuje składowe jako kandydatów na znaki tekstowe w oparciu o rozmiar, proporcje i relacje przestrzenne. Znaki, które są poziomo blisko siebie i pionowo wyrównane, są grupowane w linie tekstu.

Wykrywanie Głębokim Uczeniem

Nowoczesne silniki OCR używają sieci CNN (Convolutional Neural Networks) do bezpośredniego wykrywania obszarów tekstowych. Architektury takie jak EAST (Efficient and Accurate Scene Text Detector) i CRAFT (Character Region Awareness for Text Detection) identyfikują obszary tekstowe bez polegania na heurystycznych połączonych składowych i obsługują trudne scenariusze jak:

Tekst nakładający się na elementy graficzne
Bardzo mały tekst (przypisy, numer telefonu sklepu)
Obrócony lub zakrzywiony tekst (okrągłe logo otoczone tekstem)

Wyzwania Specyficzne dla Paragonów

Paragony przedstawiają unikalne wyzwania dla wykrywania tekstu:

Gęsty układ: Linie tekstu paragonu są często ciasno upakowane, ciaśniej niż standardowe dokumenty
Mieszana zawartość: Kody kreskowe, kody QR, logo i tekst istnieją obok siebie w bliskiej odległości
Struktura kolumny: Ceny są wyrównane do prawej, opisy do lewej, a odstęp między nimi się zmienia
Separatory: Myślniki, znaki równości i gwiazdki używane jako wizualne separatory nie mogą być mylone z zawartością tekstową

Etap 4: Rozpoznawanie Znaków

To etap, o którym większość myśli mówiąc "OCR". Mając wykryte obszary tekstowe, silnik identyfikuje poszczególne znaki.

Jak Nowoczesne OCR Rozpoznaje Znaki

Stare podejście (dopasowywanie szablonów): Porównuje każdy obraz znaku z biblioteką znanych szablonów znaków. Szybkie, ale kruche — zawodzi przy nieznanych czcionkach, uszkodzonych znakach lub nietypowym odstępie.

Bieżące podejście (głębokie uczenie): Sieci LSTM (Long Short-Term Memory) przetwarzają obrazy linii tekstu sekwencyjnie i uczą się rozpoznawać wzorce znaków w kontekście. Niejednoznaczności jak "0" kontra "O" są rozwiązywane przez otaczające znaki i pozycję znaku w obrębie pola.

Najnowocześniejszy (modele Transformer): Architektury Vision Transformer (takie jak TrOCR Microsoftu) przetwarzają całe obszary tekstowe jako sekwencje, osiągając wyższą dokładność na zdegradowanym lub nietypowym tekście dzięki wykorzystaniu szerszego kontekstu.

Funkcja Straty CTC

Większość nowoczesnych silników OCR używa CTC (Connectionist Temporal Classification) podczas treningu. Dzięki temu mogą uczyć się sekwencji znaków bez wymagania dokładnej segmentacji na poziomie znaków — szczególnie ważne dla paragonów, gdzie odstępy między znakami są nieregularne i znaki czasami stykają się lub nakładają.

Dokładność na Poziomie Znaku kontra Słowa

Dokładność na poziomie znaku mierzy poprawność poszczególnych znaków: "jabłko" przeczytane jako "jabłko" to 100%
Dokładność na poziomie słowa mierzy całe słowa: słowo z literówką to 0% dla tego słowa
Twierdzenia dotyczące OCR paragonów zazwyczaj cytują dokładność na poziomie znaku, bo liczby są wyższe

W praktycznym zastosowaniu dokładność na poziomie słowa jest ważniejsza — gdy chcesz kategoryzować zakupy, nazwa produktu z literówką jest równie bezużyteczna jak brakująca nazwa.

Tip

Cyfra "1" i litera "l" (małe L) są wizualnie identyczne w wielu czcionkach paragonów. Silniki OCR używają kontekstu do rozwiązania tej niejednoznaczności: w polu ceny "1" wygrywa zdecydowanie; w polu nazwy produktu "l" jest bardziej prawdopodobne. Dlatego specyficzne dla paragonów silniki OCR, które rozumieją strukturę pól paragonu, przewyższają ogólne rozpoznawanie tekstu w danych paragonów.

Etap 5: Ekstrakcja Pól (Najtrudniejsza Część)

Surowe wyjście OCR z etapu 4 to płaski strumień tekstu rozpoznanych znaków. Ekstrakcja pól odwzorowuje ten tekst na ustrukturyzowane dane: decyduje, który tekst jest nazwą sklepu, który to poszczególne pozycje, a który to suma.

Tutaj specyficzne dla paragonów szkolenie oddziela narzędzia pro od podstawowego OCR. Ogólny silnik OCR czytający paragon produkuje coś takiego:

BIEDRONKA
ul. Marszałkowska 1, 00-624 Warszawa
NIP: 123-456-78-90

Banany bio 1kg             3,99 zł
Mleko 2% 1L                2,49 zł
Ser żółty cheddar 400g     7,99 zł
Chleb razowy pełnoziarnisty 4,99 zł
Tabletki do zmywarki       12,99 zł

Suma częściowa             32,45 zł
VAT (8%)                    2,60 zł
Razem                      35,05 zł
Karta Visa ****5678

Silnik ekstrakcji pól wytrenowany na paragonach konwertuje to na:

{
  "nazwaSklepu": "BIEDRONKA",
  "adres": "ul. Marszałkowska 1, 00-624 Warszawa",
  "data": "2026-03-22",
  "pozycje": [
    {"nazwa": "Banany bio 1kg", "cena": 3.99},
    {"nazwa": "Mleko 2% 1L", "cena": 2.49},
    {"nazwa": "Ser żółty cheddar 400g", "cena": 7.99},
    {"nazwa": "Chleb razowy pełnoziarnisty", "cena": 4.99},
    {"nazwa": "Tabletki do zmywarki", "cena": 12.99}
  ],
  "sumaBarczowa": 32.45,
  "vat": 2.60,
  "razem": 35.05,
  "metodaPlatnosci": "Karta Visa kończy się na 5678"
}

Dlaczego Ekstrakcja Poszczególnych Pozycji jest Trudna

Ekstrakcja sumy całkowitej jest stosunkowo prosta: zazwyczaj jest to największa liczba przy dole paragonu, poprzedzona słowem jak "Razem".

Poszczególne pozycje są trudne, bo:

Brak wspólnego formatu: Każdy sklep formatuje paragony inaczej — szerokość kolumny, styl skrótów, umiejscowienie ceny i separatory różnią się w tysiącach systemów kasowych
Skrócone nazwy: "BANAN BIO 1KG" wymaga wiedzy dziedzinowej do poprawnej interpretacji
Pozycje zajmujące wiele wierszy: Niektóre pozycje zajmują 2 wiersze (opis w jednym wierszu, cena w następnym; lub wiersz rabatu pod pozycją)
Modyfikatory ceny: Kup jeden dostaniesz jeden, ceny wagowe ("2,340 kg × 1,79 zł/kg"), rabaty lojalnościowe, kupony tworzą złożone struktury cenowe
Wiersze nie będące pozycjami: Nagłówki, stopki, komunikaty marketingowe, polityki sklepu mieszają się z danymi zakupowymi

Aby uzyskać szczegółową analizę tego, co nowoczesne silniki mogą faktycznie wyodrębnić, przeczytaj przewodnik po ekstrakcji danych OCR z paragonów.

Etap 6: Walidacja i Przetwarzanie Końcowe

Ostatni etap sprawdza wewnętrzną spójność wyodrębnionych danych:

Walidacja matematyczna: Czy sumy cen poszczególnych pozycji dają sumę częściową? Suma częściowa + VAT = razem?
Walidacja formatu: Czy data jest w prawidłowym formacie? Czy suma jest liczbą dodatnią?
Wyniki pewności: Silnik przypisuje każdemu wyodrębnionemu polu wynik pewności (0–100%), umożliwiając aplikacjom oznaczanie ekstrakcji o niskiej pewności do przeglądu użytkownika
Wyszukiwanie w bazie danych sklepów: Niektóre silniki dopasowują wyodrębnioną nazwę sklepu do bazy danych znanych sklepów, korygując pisownię i standaryzując nazewnictwo

Walidacja Wieloprzebiegowa

Zaawansowane systemy jak Yomio używają wieloprzebiegowego przetwarzania z niestandardowymi modelami wytrenowanymi na paragonach do krzyżowego weryfikowania wyników. Silnik wykonuje wiele przebiegów ekstrakcji i łączy wyniki. Gdy przebiegi są zgodne, zaufanie jest wysokie; gdy się nie zgadzają, system może:

Wybrać wynik z najwyższym wskaźnikiem pewności
Oznaczyć pole do przeglądu użytkownika
Zastosować heurystykę opartą na regułach (np. jeśli jeden silnik odczytuje "35,05 zł", a drugi "35,02 zł", a suma pozycji wynosi 35,05 zł, wygrywa pierwszy wynik)

To wieloprzebiegowe podejście zmniejsza ogólny wskaźnik błędów o 30–40% w porównaniu z jednorazowym przetwarzaniem. Dlatego Yomio osiąga 92% dokładności na poszczególnych pozycjach, gdzie podstawowe aplikacje OCR zazwyczaj osiągają 75–85%.

Success

Ostateczna dokładność OCR dla paragonu jest wynikiem wszystkich 6 etapów. Jeśli każdy etap jest niezależnie 97% dokładny, łączna dokładność wynosi 0,97⁶ = 83,3%. Dlatego poprawa jednego etapu — nawet o kilka punktów procentowych — ma mierzalny wpływ na dokładność od początku do końca. I dlaczego inwestowanie we wstępne przetwarzanie (Etap 2) przynosi nieproporcjonalne korzyści.

Skanowanie Paragonów OCR: Typowe Formaty i Wyzwania

Paragony Termiczne (Najczęstsze)

Około 90% paragonów sklepowych jest drukowanych na papierze termicznym, który używa powłoki wrażliwej na ciepło zamiast atramentu. Druk termiczny produkuje:

Spójną jakość znaków gdy nowy
Wrażliwość na ciepło, światło słoneczne i ekspozycję chemiczną
Stopniowe blaknięcie, które zaczyna się natychmiast po wydrukowaniu
Prawie nieczytelność po 12–24 miesiącach w wielu warunkach

Paragony Drukowane Atramentem

Paragony igłowe i atramentowe (powszechne w starszych systemach kasowych lub ręcznych drukarkach faktur) używają prawdziwego atramentu, który nie blednie chemicznie. Ale często cierpią na złą jakość druku — nierówna grubość znaków, plamy atramentu, niska rozdzielczość. Dokładność OCR na wydrukach igłowych jest zazwyczaj o 5–10% niższa niż na świeżym druku termicznym.

Paragony Cyfrowe (E-mail/PDF)

Paragony cyfrowe całkowicie omijają etapy przechwytywania obrazu i wstępnego przetwarzania. Tekst można wyodrębnić bezpośrednio z PDF lub HTML poczty elektronicznej bez OCR, co zbliża dokładność ekstrakcji tekstu do 100%. Jednak ekstrakcja pól nadal wymaga rozumienia formatu paragonu, aby poprawnie ustrukturyzować dane.

Międzynarodowe Formaty Paragonów

Formaty paragonów znacznie różnią się w zależności od kraju:

USA/UK: Lewostronnie wyrównane pozycje, prawostronnie wyrównane ceny, kropka jako separator dziesiętny
Europa kontynentalna: Przecinek jako separator dziesiętny (€13,63), czasami suma od prawej do lewej
Arabski: Kierunek tekstu prawostronny, cyfry arabskie lub zachodnie, mieszana wielojęzyczna treść
Azja Wschodnia: Nazwy produktów oparte na znakach, pionowy lub poziomy tekst, znaki o zmiennej szerokości

Obsługa tych formatów wymaga modeli OCR specyficznych dla języka i zrozumienia formatu kulturowego, nie tylko rozpoznawania znaków.

Przyszłość Skanowania Paragonów OCR

Duże Modele Językowe (LLM) do Ekstrakcji Pól

Najnowszym rozwinięciem w OCR paragonów jest wykorzystanie LLM do etapu ekstrakcji pól. Zamiast ekstrakcji pól opartej na regułach lub CNN, surowy tekst OCR jest podawany do modelu językowego, który kontekstowo rozumie strukturę paragonu. Wczesne wyniki pokazują 5–10% poprawy dokładności na złożonych paragonach:

Rozwiązywanie skróconych nazw produktów
Obsługa nietypowych układów paragonów niewidzianych w danych treningowych
Wielojęzyczne paragony zawierające mieszane systemy pisma

Przetwarzanie na Urządzeniu

Frameworki ML na urządzeniach Apple i Google (Core ML, ML Kit) przenoszą OCR paragonów do urządzeń brzegowych, zmniejszając opóźnienia i umożliwiając skanowanie offline. Obecna dokładność na urządzeniu jest o 10–15% niższa niż przetwarzanie w chmurze, ale różnica zmniejsza się z każdą generacją sprzętu.

Ustrukturyzowane Cyfrowe Paragony

Długoterminowym rozwiązaniem wyzwania OCR paragonów jest całkowite wyeliminowanie potrzeby OCR. Standardy takie jak DRIS (Digital Receipt Interchange Standard) proponują formaty paragonów czytelne maszynowo, przesyłane cyfrowo przy kasie. Adopcja jest powolna — wymaga modernizacji systemów kasowych u milionów sprzedawców — ale impet narasta w UE i Wielkiej Brytanii.

Często Zadawane Pytania

Jak dokładne jest skanowanie paragonów OCR w 2026 roku? Najlepsze silniki chmurowe osiągają dokładność 90–95% na poziomie pola i 85–92% na poziomie poszczególnych pozycji dla standardowych paragonów. Niestandardowy silnik Yomio osiąga ponad 92% dokładności na poszczególnych pozycjach. Dokładność spada w przypadku wyblakłych paragonów termicznych, nietypowych układów i odręcznego tekstu.

Czy OCR może obsługiwać zmięte lub uszkodzone paragony? Nowoczesne wstępne przetwarzanie może przywrócić tekst z umiarkowanie zmiętych paragonów poprzez prostowanie i lokalną poprawę kontrastu. Poważnie uszkodzone paragony (rozdarte, zalane, mocno zagięte wzdłuż linii tekstu) mogą dawać niekompletne wyniki. Wyprostowanie paragonu przed skanowaniem znacznie poprawia wyniki.

Dlaczego ten sam silnik OCR daje różne wyniki na różnych paragonach? Zmienność układu paragonu jest głównym czynnikiem. Paragony z dużych sieci krajowych ze standaryzowanymi systemami kasowymi dają spójne wyniki z wysoką dokładnością. Paragony z mniejszych lokalnych sklepów ze starszymi drukarkami mogą mieć niższą dokładność z powodu nietypowego formatowania, wyboru czcionki i jakości druku.

Jaka jest różnica między skanowaniem paragonów OCR a zwykłym OCR? Zwykłe OCR konwertuje obrazy na tekst. OCR paragonów dodaje ekstrakcję pól: rozumienie, który tekst jest nazwą sklepu, który datą, które pozycjami i który sumą. Ta inteligencja specyficzna dla paragonów wymaga szkolenia na milionach przykładowych paragonów i rozumienia wzorców układu paragonów.

Jaka jest różnica między OCR a ICR? OCR (Optical Character Recognition) jest zoptymalizowane dla tekstu drukowanego maszynowo. ICR (Intelligent Character Recognition) obsługuje tekst pisany ręcznie. Większość aplikacji do skanowania paragonów używa tylko OCR, ponieważ paragony są drukowane maszynowo. ICR jest istotne dla ręcznie napisanych faktur lub notatek wydatkowych.

Zobacz Skanowanie Paragonów OCR w Działaniu

Niestandardowy silnik Yomio wyodrębnia wszystkie poszczególne pozycje z paragonu w sekundy. Spróbuj zeskanować swój następny paragon zakupowy — doświadcz różnicy, jaką robią dane na poziomie pozycji.

Pobierz Yomio za darmo

Więcej od Yomio