СКЕНИРАЊЕ И OCR

Добро попладне

Веројатно секој од нас се соочува со задачата кога треба да преведувате хартиен документ во електронска форма. Ова е особено неопходно за оние кои учат, работат со документација, ги преведуваат текстовите користејќи електронски речници итн.

Во оваа статија би сакал да споделам некои од основите на овој процес. Општо земено, скенирањето и препознавањето на текст е доста време, бидејќи повеќето операции ќе треба да се извршат рачно. Ќе се обидеме да дознаеме што, како и зошто.

Не сите веднаш разбираат една работа. По скенирањето (прилагодување на сите листови на скенерот) ќе имате слики од формат BMP, JPG, PNG, GIF (може да има и други формати). Значи од оваа слика треба да го добиете текстот - оваа постапка се нарекува препознавање. Во овој редослед, и ќе бидат презентирани подолу.

Содржината

1. Што е потребно за скенирање и препознавање?
2. Опции за скенирање текст
3. Признавање на текстот на документот
- 3.1 Текст
- 3.2 Слики
- 3.3 Табели
- 3.4 Непотребни предмети
4. Признавање на PDF / DJVU датотеки
5. Проверка на грешки и зачувување на резултатите од работата

1. Што е потребно за скенирање и препознавање?

1) скенер

За превод на печатени документи во текстуална форма, најпрвин ви е потребен скенер и, соодветно, "мајчин" програми и двигатели кои што оделе со него. Со нив можете да го скенирате документот и да го зачувате за понатамошна обработка.

Можете да користите други аналози, но софтверот што доаѓа со скенер во комплетот обично работи побрзо и има повеќе опции.

Во зависност од тоа каков вид на скенер имате - брзината на работа може да варира значително. Постојат скенери кои можат да добијат слика од лист за 10 секунди, има оние што ќе го добијат за 30 секунди. Ако скенирате книга на 200-300 листови - мислам дека не е тешко да се пресмета колку пати ќе има разлика во времето?

2) Програма за признавање

Во нашата статија, ќе ви ја покажам работата во една од најдобрите програми за скенирање и препознавање на апсолутно сите документи - ABBYY FineReader. Од програмата се плаќа, а веднаш потоа ќе дадам линк до друг - нејзиниот бесплатен аналог на форма на Кунеј. Точно, не би ги споредувал, заради фактот дека FineReader победува во сите погледи, препорачувам да го испробате истото.

ABBYY FineReader 11

Официјален сајт: //www.abbyy.ru/

Една од најдобрите програми од ваков вид. Тој е дизајниран да го препознае текстот на сликата. Вградени се многу опции и карактеристики. Тоа може да се анализира еден куп фонтови, дури и поддржува рачно напишани верзии (иако не сум лично се обидел, мислам дека е добро тешко да се препознае ракописнат верзија, освен ако имате совршен калиграфички ракопис). Повеќе информации за работата со неа ќе бидат разгледани подолу. Исто така забележуваме дека статијата ќе ја опфати работата во 11 верзии на програмата.

Како по правило, различни верзии на ABBYY FineReader не се многу различни едни од други. Можете лесно да го сторите истото во другиот. Главните разлики можат да бидат во удобноста, брзината на програмата и неговите способности. На пример, претходните верзии одбиваат да отворат PDF документ и DJVU ...

3) Документи за скенирање

Да, па овде, решив да ги извадам документите во посебна колона. Во повеќето случаи, скенирајте ги сите учебници, весници, статии, списанија итн оние книги и литература што е на побарувачката. Што води кон тоа? Од лично искуство, можам да кажам дека многу што сакате да го скенирате - можеби веќе е во мрежата! Колку пати лично заштедив време кога најдов една книга или друга веќе скенирана во мрежата. Јас само требаше да го ископирате текстот во документот и да продолжите со него.

Од овој едноставен совет - пред да скенирате нешто, проверете дали некој веќе е скениран и не треба да губите време.

2. Опции за скенирање текст

Овде, јас нема да зборувам за вашите драјвери за скенерот, програмите што отидоа со него, бидејќи сите модели на скенер се различни, софтверот е исто така различен насекаде и погодување и уште појасно покажува како да се изврши операцијата е нереално.

Но, сите скенери ги имаат истите поставки што може многу да влијаат врз брзината и квалитетот на вашата работа. Еве за нив јас само ќе разговарам овде. Јас ќе набројам по ред.

1) Квалитет на скенирање - DPI

Прво, поставете го квалитетот на скенирање во опциите не помали од 300 DPI. Препорачливо е дури да се стави уште малку, ако е можно. Колку е повисок индикаторот DPI, толку појасна ќе биде вашата слика, и така, понатамошната обработка ќе се одвива побрзо. Покрај тоа, толку е поголем квалитетот на скенирањето - толку помалку грешки што подоцна ќе треба да ги исправите.

Најдобра опција обезбедува, обично 300-400 DPI.

2) хроматичност

Овој параметар во голема мера влијае на скенирање време (патем, DPI, исто така, влијае, но тие се толку силни, и само кога корисникот поставува високи вредности).

Обично постојат три режими:

- црно-бело (совршено за обичен текст);

- сива (погодна за текст со табели и слики);

- боја (за списанија во боја, книги, воопшто, документи, каде што бојата е важна).

Обично времето на скенирање зависи од изборот на боја. Впрочем, ако имате голем документ, дури и дополнителните 5-10 секунди на страницата како целина ќе резултираат со пристоен пат ...

3) Слики

Документот може да го добиете не само со скенирање, туку и со земање на слика од неа. Како по правило, во овој случај ќе имате некои други проблеми: изобличување на сликата, замаглување. Поради ова, може да бара подолго понатамошно уредување и обработка на примениот текст. Лично, јас не препорачувам да користите камери за овој бизнис.

Важно е да се напомене дека не секој документ ќе биде препознатлив, бидејќи скенирање на квалитет, тој може да биде екстремно низок ...

3. Признавање на текстот на документот

Претпоставуваме дека негуваните страници скенирани сте ги добиле. Најчесто тие се формати: tif, bmb, jpg, png. Во принцип, за ABBYY FineReader - ова не е многу важно ...

По отворањето на сликата во ABBYY FineReader, програмата, како по правило, на машината почнува да избира области и да ги препознава. Но, понекогаш таа го прави тоа погрешно. За ова ние рачно го разгледуваме изборот на посакуваните области.

Тоа е важно! Не сите веднаш разбираат дека по отворањето на документот во програмата, изворниот документ е прикажан лево во прозорецот, во кој нагласувате различни области. Откако ќе кликнете на копчето "признавање", програмата во прозорецот на десната ќе ви го донесе готовиот текст. По препознавањето, патем, препорачливо е да се провери текстот за грешки во истиот FineReader.

3.1 Текст

Оваа област се користи за означување на текст. Сликите и табелите треба да бидат исклучени од неа. Ретки и необични фонтови ќе треба да се внесат рачно ...

За да изберете текст област, обрнете внимание на панелот на врвот на FineReader. Постои копче "T" (види: Сликата подолу, покажувачот на глувчето е само на ова копче). Кликнете на него, потоа на сликата подолу изберете ја уредно правоаголната област во која се наоѓа текстот. Патем, во некои случаи треба да се создаде текст блокови од 2-3, а понекогаш и 10-12 на страница, бидејќи Форматирањето на текст може да биде различно и да не ја одберете целата област со еден правоаголник.

Важно е да се напомене дека сликите не треба да паѓаат во текстуалната област! Во иднина ќе ве спаси многу време ...

3.2 Слики

Се користи за да се истакнат сликите и оние области кои тешко се препознаваат поради лош квалитет или невообичаен фонт.

На сликата подолу, покажувачот на глувчето се наоѓа на копчето кое се користи за да се избере областа "слика". Патем, апсолутно било кој дел од страницата може да биде избран во оваа област, а FineReader потоа ќе го вметне во документот како нормална слика. Односно само "глупави" ќе копираат ...

Вообичаено, оваа област се користи за да се потенцираат слабо скенирани маси, за да се потенцира нестандардниот текст и фонт, самите слики.

3.3 Табели

Сликата подолу го покажува копчето за да ги означи табелите. Во принцип, јас лично го користам многу ретко. Факт е дека морате доста рутински да цртате (всушност) секоја линија на маса и да покажете што и како програмата. Ако табелата е мала и не е со многу добар квалитет, препорачувам да ја користите областа "слика" за овие цели. Притоа, заштедувате многу време, а потоа можете брзо да направите табела во Word врз основа на сликата.

3.4 Непотребни предмети

Важно е да се забележи. Понекогаш има непотребни елементи на страната што го отежнуваат препознавањето на текстот или воопшто не можете да ја одберете саканата област. Тие можат да бидат отстранети со употреба на "гума за гума" воопшто.

За да го направите ова, одете во режимот за уредување на слики.

Изберете ја алатката за бришење и одберете ја несаканата област. Ќе биде избришана и на негово место ќе биде бел лист хартија.

Патем, препорачувам да ја користите оваа опција за вас колку што е можно побрзо. Обидете се со сите текстуални области што сте ги избрале, каде што не ви треба парче текст, или има непотребни точки, замаглување, изобличувања - бришете со гума. Благодарение на ова признание ќе биде побрзо!

4. Признавање на PDF / DJVU датотеки

Генерално, овој формат за препознавање нема да се разликува од другите - т.е. Можете да работите со него како со слики. Единственото нешто што програмата не треба да биде престара верзија, ако не ги отворате PDF / DJVU датотеките - ја ажурирате верзијата на 11.

Малку совети. По отворањето на документот во FineReader - автоматски ќе започне да го препознава документот. Често во PDF / DJVU-датотеките не е потребна одредена област на страницата низ целиот документ! За да отстраните таква област на сите страници, направете го следново:

1. Одете во делот за уредување на слики.

2. Овозможете ја опцијата "кастрирање".

3. Изберете ја областа што ви е потребна на сите страници.

4. Кликни се однесуваат на сите страници и трим.

5. Проверка на грешки и зачувување на резултатите од работата

Се чини дека може да има и други проблеми, кога сите области беа избрани, а потоа признати - земи го и спаси го ... Тоа не беше таму!

Прво, ние треба да го провериме документот!

За да го овозможите, по препознавањето, во прозорецот на десната страна, ќе има копче "провери", видете ја сликата подолу. По кликнувањето, програмата FineReader автоматски ќе ги прикаже оние области каде што програмата има грешки и не може сигурно да одреди еден или друг симбол. Вие ќе треба само да изберете или да се согласите со мислењето на програмата или да го внесете вашиот карактер.

Патем, во половина од случаите, приближно, програмата ќе ви понуди готов вистински збор - само треба да го користите глувчето за да ја изберете опцијата што ја сакате.

Второ, по проверката треба да го изберете форматот во кој го зачувате резултатот од вашата работа.

Овде FineReader ви дава свртување во потполност: можете едноставно да ги пренесете информациите во Word еден-на-еден, и можете да го зачувате во една од десетици формати. Но, би сакал да истакнам уште еден важен аспект. Без разлика кој формат ќе го одберете, поважно е да го изберете типот на копија! Размислете за најинтересните опции ...

Точна копија

Сите области што сте ги избрале на страницата во признатиот документ точно ќе се совпаѓаат во изворниот документ. Многу удобна опција кога е важно да не губите текстуално форматирање. Патем, фонтовите исто така ќе бидат многу слични на оригиналот. Препорачувам со оваа опција да го префрлите документот во Word, за да продолжите понатаму да работите таму.

Редактирана копија

Оваа опција е добра, бидејќи добивате веќе форматирана верзија на текстот. Односно Вовлекување на "километар", кој може да е во оригиналниот документ - нема да се сретнете. Корисна опција кога значително ќе ги уредите информациите.

Точно, не треба да одберете дали е важно да го зачувате стилот на дизајнот, фонтовите, алиштата. Понекогаш, ако препознавањето не е многу успешно - вашиот документ може да се "превитка" поради променетото форматирање. Во овој случај, препорачливо е да се избере точна копија.

Обичен текст

Опција за оние на кои им е потребен само текст од страната без сè друго. Погоден за документи без слики и табели.

Ова го заклучува документот за скенирање и признавање документи. Се надевам дека со помош на овие едноставни совети можете да ги решите вашите проблеми ...

Среќно!