Не секогаш е можно да се извлече текстот од PDF фајл со конвенционално копирање. Често страниците на таквите документи се скенираната содржина на нивните хартиени верзии. За да ги конвертирате таквите датотеки во текстуални податоци што можат да се уредуваат, се користат специјални програми со функцијата за оптичко препознавање знаци (OCR).
Таквите решенија се многу тешки за спроведување и, според тоа, чинат многу пари. Ако треба редовно да го препознавате текстот со PDF, препорачливо е да ја купите соодветната програма. За ретки случаи, би било логично да се користи една од достапните онлајн услуги со слични функции.
Како да препознаете текст од PDF на интернет
Се разбира, функцијата за онлајн услуги на OCR е поограничена во споредба со целосните решенија за десктоп. Но, можете да работите со такви ресурси или бесплатно, или за номинален надомест. Главната работа е што соодветните веб апликации се справат со нивната главна задача, имено, препознавање на текст.
Метод 1: ABBYY FineReader Online
Компанијата за развој на услуги е една од лидерите во полето на оптичко препознавање документи. ABBYY FineReader за Windows и Mac е моќно решение за конвертирање на PDF во текст и работа со него.
Веб-партнерот на програмата, секако, е инфериорен во однос на тоа во функционалноста. Сепак, услугата може да препознае текст од скенови и фотографии на повеќе од 190 јазици. Поддржува конверзија на PDF датотеки во документи Word, Excel, итн.
ABBYY FineReader Онлајн онлајн сервис
- Пред да започнете со работа со алатката, креирајте сметка на страницата или пријавете се со вашиот Фејсбук, Google или Microsoft сметка.
За да отидете на прозорецот за најава, кликнете на копчето. "Најави" во горната лента со менија. - Откако сте најавени, внесете го саканиот PDF документ во FineReader користејќи го копчето "Додадени фајлови".
Потоа кликнете "Избери броеви на страници" и наведете го посакуваниот распон за препознавање текст. - Следно, одберете ги јазиците присутни во документот, форматот на добиената датотека и кликнете на копчето "Препознајте".
- По обработката, чие времетраење целосно зависи од големината на документот, можете да ја преземете завршената датотека со текстуални податоци само со кликнување на нејзиното име.
Или да го извезете во една од достапните облак-услуги.
Сервисот се одликува, најверојатно, со најпрецизни алгоритми за препознавање на текст во слики и PDF датотеки. Но, за жал, неговата слободна употреба е ограничена на пет страници кои се обработуваат месечно. За да работите со повеќе обемни документи, мора да купите една година претплата.
Меѓутоа, ако функцијата OCR е потребна многу ретко, ABBYY FineReader Online е одлична опција за извлекување текст од мали PDF датотеки.
Метод 2: Бесплатно онлајн OCR
Едноставна и удобна услуга за дигитализирање на текст. Без потреба од регистрација, ресурсот ви овозможува да препознаете 15 целосни PDF-страници на час. Слободен онлајн OCR целосно работи со документи на 46 јазици и без дозвола поддржува три формати за извоз на текст - DOCX, XLSX и TXT.
Кога се регистрирате, корисникот може да обработува повеќестрани документи, но слободниот број на овие страници е ограничен на 50 единици.
Бесплатна онлајн OCR онлајн услуга
- За да го препознаете текстот од PDF како "гостин", без овластување на ресурсот, користете го соодветниот формулар на главната страница на страницата.
Изберете го саканиот документ користејќи го копчето "Датотека", наведете го главниот јазик на текст, излезниот формат, а потоа почекајте да се вчита датотеката и да се кликне "Конвертирај". - На крајот од процесот на дигитализација, кликнете "Преземи излезна датотека" за да го зачувате готовиот документ со текстот на компјутерот.
За овластени корисници, редоследот на активностите е поинаков.
- Користете го копчето "Регистрација" или "Најави" во горната лента со мени за, соодветно, креирајте сметка Бесплатно онлајн OCR или одете во неа.
- По овластувањето во панелот за препознавање, држете го клучот "CTRL", изберете до два јазика на изворниот документ од дадената листа.
- Наведете дополнителни опции за извлекување текст од PDF и кликнете на копчето. "Избери датотека" да го вчита документот во услугата.
Потоа, за да започнете признавање, кликнете "Конвертирај". - По обработката на документот, кликнете на врската со името на излезната датотека во соодветната колона.
Резултатот од признавањето ќе биде веднаш зачуван во меморијата на вашиот компјутер.
Ако ви треба да извлечете текст од мал PDF документ, можете безбедно да се прибегне кон користење на алатката опишана погоре. За да работите со големи датотеки, ќе треба да купите дополнителни симболи во Free OCR или да прибегнете кон друго решение.
Метод 3: NewOCR
Целосно бесплатна OCR-услуга која ви овозможува да извлечете текст од речиси сите графички и електронски документи како DjVu и PDF. Ресурсот не наметнува ограничувања на големината и бројот на препознатливи датотеки, не бара регистрација и нуди широк спектар на сродни функции.
NewOCR поддржува 106 јазици и е способен правилно да се справи со скенирање документи со низок квалитет. Можно е рачно да ја изберете областа за препознавање на текст на страната со датотеки.
Онлајн сервис NewOCR
- Значи, можете веднаш да почнете да работите со ресурс, без потреба да вршите непотребни активности.
Директно на главната страница има форма за увоз на документот на страницата. За да испратите датотека во NewOCR, користете го копчето "Избери датотека" во делот "Изберете ја вашата датотека". Потоа во полето "Јазик за препознавање" изберете еден или повеќе јазици од изворниот документ, потоа кликнете "Подигни датотека + OCR". - Поставете ги претпочитаните поставки за препознавање, одберете ја саканата страница за да го извадите текстот и кликнете на копчето. "OCR".
- Скролувајте малку надолу и пронајдете го копчето. Преземи.
Кликнете на неа и во паѓачката листа изберете го потребниот формат на документ за преземање. После тоа, завршената датотека со извлечениот текст ќе биде преземена на вашиот компјутер.
Алатката е погодна и ги препознава сите ликови со доволно висок квалитет. Сепак, обработката на секоја страница од увезениот PDF документ мора да биде пуштена независно и прикажана во посебна датотека. Можете, се разбира, веднаш да ги копирате резултатите од признавањето на таблата со исечоци и да ги споите со други.
Сепак, со оглед на горенаведените нијанси, големи количини на текст со користење на NewOCR се многу тешко да се извлечат. Со истата мала датотека услуга се справува со "тресне".
Метод 4: OCR.Space
Едноставен и разбирлив ресурс за дигитализирање на текст ви овозможува да ги препознаете PDF-документите и да го изнесете резултатот во датотека TXT. Нема ограничувања на бројот на страници. Единственото ограничување е дека големината на влезниот документ не треба да надминува 5 мегабајти.
OCR.Space онлајн сервис
- Регистрирајте да работите со алатката не е неопходно.
Само кликнете на врската погоре и испратите PDF документ на веб-страницата од вашиот компјутер со помош на копчето "Избери датотека" или од мрежата - со референца. - Во паѓачката листа "Изберете јазик за OCR" изберете го јазикот на увезениот документ.
Потоа започнете процесот на препознавање текст со кликнување на копчето. "Започнете OCR!". - На крајот на обработката на датотеката, видете го резултатот во "Резултат од OCR" и кликнете Преземиза да го преземете готовиот TXT документ.
Ако само треба да го извадиме текстот од PDF и конечното форматирање воопшто не е важно, OCR.Space е добар избор. Единствениот документ мора да биде "еднојазичен", бидејќи препознавањето на два или повеќе јазици во исто време во услугата не е обезбедено.
Видете исто така: Слободни аналози FineReader
Оценувајќи ги онлајн алатките презентирани во статијата, треба да се забележи дека FineReader Online од ABBYY врши прецизна и прецизна обработка на OCR функцијата. Ако максималната точност на препознавањето на текст е важна за вас, најдобро е конкретно да ја разгледате оваа опција. Но, да се плати за тоа, најверојатно, исто така треба да се.
Ако треба да ги дигитализирате малите документи и ако сте подготвени сами да ги исправите грешките во сервисот, препорачливо е да користите NewOCR, OCR.Space или OCR за Free Online.