Scan na OCR

Mchana mzuri

Labda kila mmoja wetu alikabiliwa na kazi wakati unahitaji kutafsiri hati ya karatasi kwenye fomu ya elektroniki. Hii ni muhimu hasa kwa wale wanaojifunza, kufanya kazi na nyaraka, kutafsiri maandiko kwa kutumia kamusi za elektroniki, nk.

Katika makala hii napenda kushiriki baadhi ya misingi ya mchakato huu. Kwa ujumla, skanning na utambuzi wa maandishi ni muda kabisa kuteketeza, kama shughuli nyingi zitafanyika kwa mikono. Tutajaribu kujua nini, jinsi na kwa nini.

Si kila mtu anayeelewa jambo moja mara moja. Baada ya skanning (kufaa karatasi zote kwenye scanner) utakuwa na picha za format BMP, JPG, PNG, GIF (kunaweza kuwa na muundo mwingine). Kwa hiyo kutoka kwenye picha hii unahitaji kupata maandishi - utaratibu huu unaitwa kutambuliwa. Kwa utaratibu huu, na itawasilishwa hapa chini.

Maudhui

  • 1. Ni nini kinachohitajika kwa skanning na kutambuliwa?
  • 2. Chaguzi za skanning ya maandishi
  • 3. Kutambua maandishi ya waraka
    • 3.1 Nakala
    • 3.2 Picha
    • 3.3 Majedwali
    • 3.4 Vitu visivyohitajika
  • 4. Kutambua faili za PDF / DJVU
  • 5. Hitilafu ya kuangalia na kuhifadhi matokeo ya kazi

1. Ni nini kinachohitajika kwa skanning na kutambuliwa?

1) Scanner

Ili kutafsiri nyaraka za kuchapishwa katika fomu ya maandishi, unahitaji kwanza Scanner na, kwa hiyo, programu za "asili" na madereva waliyoenda nayo. Nao unaweza kuandika waraka na kuihifadhi kwa usindikaji zaidi.

Unaweza kutumia vielelezo vingine, lakini programu ambayo ilikuja na Scanner katika kit kawaida hufanya kazi kwa kasi na ina chaguo zaidi.

Kulingana na aina gani ya scanner uliyo nayo - kasi ya kazi inaweza kutofautiana kwa kiasi kikubwa. Kuna scanners ambazo zinaweza kupata picha kutoka kwa karatasi katika sekunde 10, kuna wale ambao wataipata katika sekunde 30. Ikiwa unasoma kitabu kwenye karatasi 200-300 - nadhani si vigumu kuhesabu mara ngapi kutakuwa na tofauti wakati?

2) Mpango wa kutambua

Katika makala yetu, nitakuonyesha kazi katika mojawapo ya mipango bora ya skanning na kutambua hati yoyote kabisa - ABBYY FineReader. Tangu mpango huo unalipwa, basi mara moja nitatoa kiungo kwa mwingine - mfano wake wa bure wa fomu ya Cunei. Kweli, siwezi kuwafananisha nao, kutokana na ukweli kwamba FineReader inafanikiwa kwa kila namna, ninapendekeza kujaribu yote sawa.

ABBYY FineReader 11

Tovuti rasmi: //www.abbyy.ru/

Moja ya mipango bora ya aina yake. Imeundwa kutambua maandishi kwenye picha. Ilijenga chaguzi nyingi na vipengele. Inaweza kupiga rundo la fonts, hata husaidia matoleo yaliyoandikwa kwa mikono (ingawa sijajaribu mwenyewe, nadhani ni vyema kutambua toleo la kuchapishwa kwa mikono, isipokuwa unapokuwa na mwandishi kamili wa kalligraphic). Maelezo zaidi kuhusu kufanya kazi naye itajadiliwa hapa chini. Pia tunatambua hapa kwamba makala itashughulikia kazi katika matoleo ya programu 11.

Kama sheria, matoleo tofauti ya ABBYY FineReader si tofauti sana na kila mmoja. Unaweza kufanya hivyo kwa urahisi katika nyingine. Tofauti kuu inaweza kuwa katika urahisi, kasi ya programu na uwezo wake. Kwa mfano, matoleo mapema anakataa kufungua hati ya PDF na DJVU ...

3) Nyaraka za kupima

Ndiyo, hivyo hapa, niliamua kuchukua hati katika safu tofauti. Mara nyingi, soma vitabu, magazeti, makala, magazeti, nk nk vitabu hivyo na vitabu vinavyohitajika. Ninaongoza kwa nini? Kutoka kwa uzoefu wa kibinafsi, naweza kusema mengi ambayo unataka kuifuta - inaweza kuwa tayari kwenye wavu! Ni mara ngapi mimi mwenyewe nilihifadhi wakati nilipopata kitabu kimoja au kingine kilichotolewa kwenye mtandao. Nilibidi tu kunakili maandiko ndani ya waraka na kuendelea nayo.

Kutoka kwa ushauri huu rahisi - kabla ya kuchunguza kitu, angalia ikiwa mtu amewahi kupima na hauhitaji kupoteza muda wako.

2. Chaguzi za skanning ya maandishi

Hapa, siwezi kuzungumza juu ya madereva yako kwa skanner, mipango iliyoendeshwa nayo, kwa sababu mifano yote ya scanner ni tofauti, programu pia ni tofauti kila mahali na nadhani na kuonyesha wazi zaidi jinsi ya kufanya operesheni ni unrealistic.

Lakini skanani zote zina mazingira sawa ambayo yanaweza kuathiri sana kasi na ubora wa kazi yako. Hapa juu yao nitasema tu hapa. Nitaandika orodha.

1) Scan ubora - DPI

Kwanza, weka ubora wa skanti katika chaguo ambazo hazipunguzi kuliko DPI 300. Inashauriwa hata kuweka kidogo zaidi, iwezekanavyo. Kiashiria cha DPI cha juu ni, picha yako wazi itaondoka, na hivyo, usindikaji zaidi utafanyika kwa haraka. Kwa kuongeza, juu ya ubora wa skanning - makosa mabaya baadaye unapaswa kurekebisha.

Chaguo bora hutoa, kwa kawaida 300-400 DPI.

2) chromaticity

Kipengele hiki kinaathiri sana muda wa skanati (kwa njia, DPI pia huathiri, lakini ni nguvu sana, na tu wakati mtumiaji anaweka maadili ya juu).

Kawaida kuna njia tatu:

- nyeusi na nyeupe (kamili kwa maandishi wazi);

- kijivu (yanafaa kwa maandishi na meza na picha);

- rangi (kwa magazeti ya rangi, vitabu, kwa ujumla, nyaraka, ambapo rangi ni muhimu).

Kawaida wakati wa skanti inategemea uchaguzi wa rangi. Baada ya yote, ikiwa una hati kubwa, hata sekunde za ziada za 10-10 kwenye ukurasa kwa ujumla zitasababisha wakati mzuri ...

3) Picha

Unaweza kupata waraka si tu kwa skanning, lakini pia kwa kuchukua picha yake. Kama utawala, katika kesi hii utakuwa na matatizo mengine: upotovu wa picha, kuchanganya. Kwa sababu hii, inaweza kuhitaji upya zaidi na usindikaji wa maandishi yaliyopokelewa. Binafsi, siipendekeza kutumia kamera kwa biashara hii.

Ni muhimu kutambua kwamba si kila hati hiyo itatambuliwa, kwa sababu Scan quality inaweza kuwa chini sana ...

3. Kutambua maandishi ya waraka

Tunafikiri kwamba kurasa zilizopendekezwa zimefunuliwa ulizopokea. Mara nyingi ni muundo: tif, bmb, jpg, png. Kwa ujumla, kwa ABBYY FineReader - hii sio muhimu sana ...

Baada ya kufungua picha katika ABBYY FineReader, mpango, kama sheria, kwenye mashine huanza kuchagua maeneo na kutambua. Lakini wakati mwingine anafanya hivyo. Kwa hili tunazingatia uteuzi wa maeneo yaliyohitajika kwa manually.

Ni muhimu! Sio kila mtu anaelewa mara moja kwamba baada ya kufungua hati katika programu, upande wa kushoto katika dirisha hati ya chanzo imeonyeshwa, ambayo unaonyesha maeneo tofauti. Baada ya kubofya kitufe cha "kutambua", programu katika dirisha upande wa kulia itakuleta maandishi ya kumaliza. Baada ya kutambuliwa, kwa njia, ni vyema kuangalia alama ya makosa katika FineReader sawa.

3.1 Nakala

Eneo hili linatumiwa kuonyesha maandishi. Picha na meza zinapaswa kutengwa na hilo. Fonta za kawaida na isiyo ya kawaida zitahitajika kuingia kwa mikono ...

Ili kuchagua eneo la maandishi, makini na jopo juu ya FineReader. Kuna kifungo "T" (angalia skrini iliyo chini, pointer ya mouse iko kwenye kifungo hiki). Bonyeza juu yake, kisha kwenye picha hapa chini chagua eneo lenye mstatili mzuri ambalo maandiko iko. Kwa njia, wakati mwingine unahitaji kujenga vitalu vya maandishi ya 2-3, na wakati mwingine 10-12 kila ukurasa, kwa sababu Ufishaji wa maandishi unaweza kuwa tofauti na usiupe eneo lote kwa mstatili mmoja.

Ni muhimu kutambua kwamba picha hazipaswi kuanguka katika eneo la maandishi! Katika siku zijazo, itakuokoa muda mwingi ...

3.2 Picha

Ilionyesha picha na maeneo ambayo ni vigumu kutambua kutokana na ubora duni au font isiyo ya kawaida.

Katika skrini iliyo chini, pointer ya panya iko kwenye kifungo kilichotumiwa kuchagua eneo "picha". Kwa njia, kabisa sehemu yoyote ya ukurasa inaweza kuchaguliwa katika eneo hili, na FineReader itaingiza kwenye waraka kama picha ya kawaida. Mimi tu "wajinga" utaiga nakala ...

Kwa kawaida, eneo hili linatumiwa kuonyesha meza isiyosafishwa, ili kuonyesha maandishi yasiyo na kawaida na font, picha yenyewe.

3.3 Majedwali

Skrini iliyo hapo chini inaonyesha kifungo cha kuonyesha meza. Kwa ujumla, mimi binafsi hutumia sana mara chache. Ukweli ni kwamba unapaswa kuteka (kwa kweli) kila mstari kwenye meza na kuonyesha nini na jinsi gani mpango huo. Ikiwa meza ni ndogo na isiyo bora sana, napendekeza kutumia eneo "picha" kwa madhumuni haya. Kwa hivyo kuokoa muda mwingi, na kisha unaweza haraka kufanya meza katika Neno kwa misingi ya picha.

3.4 Vitu visivyohitajika

Ni muhimu kutambua. Wakati mwingine kuna mambo yasiyohitajika kwenye ukurasa ambao hufanya iwe vigumu kutambua maandiko, au usiruhusu kuchagua eneo linalohitajika kabisa. Wanaweza kuondolewa kwa kutumia "eraser" kabisa.

Kwa kufanya hivyo, nenda kwenye hali ya kuhariri picha.

Chagua chombo chochote na chagua eneo lisilohitajika. Itafuta na mahali pake itakuwa karatasi nyeupe ya karatasi.

Kwa njia, mimi kupendekeza kutumia chaguo hili kwa mara nyingi iwezekanavyo. Jaribu maeneo yote ya maandishi uliyochagua, ambapo huna haja ya kipande cha maandishi, au kuna pointi yoyote isiyohitajika, uovu, upotofu - kufuta kwa eraser. Shukrani kwa utambuzi huu utakuwa kasi!

4. Kutambua faili za PDF / DJVU

Kwa ujumla, muundo huu wa utambuzi hautakuwa tofauti na wengine - yaani. Unaweza kufanya kazi kama hayo na picha. Kitu pekee cha mpango haipaswi kuwa na umri mzima sana, ikiwa hufungua mafaili ya PDF / DJVU - sasisha toleo la 11.

Ushauri mdogo. Baada ya kufungua hati katika FineReader - itaanza kutambua hati moja kwa moja. Mara nyingi katika mafaili ya PDF / DJVU, eneo fulani la ukurasa hauhitajiki katika hati nzima! Ili kuondoa eneo kama hilo kwenye kurasa zote, fanya zifuatazo:

Nenda kwenye sehemu ya uhariri wa picha.

2. Wezesha chaguo "cha kuchochea".

3. Chagua eneo unalohitaji kwenye kurasa zote.

4. Bonyeza kuomba kwenye kurasa zote na trim.

5. Hitilafu ya kuangalia na kuhifadhi matokeo ya kazi

Inaonekana kuwa kunaweza kuwa na matatizo wakati maeneo yote yamechaguliwa, kisha kutambuliwa - chukua na kuiokoa ... Haikuwepo!

Kwanza, tunahitaji kuangalia hati!

Ili kuiwezesha, baada ya kutambuliwa, katika dirisha upande wa kulia, kutakuwa na kifungo cha "angalia", angalia screenshot hapa chini. Baada ya kubofya, programu ya FineReader itaonyesha moja kwa moja maeneo hayo ambapo programu ina makosa na haikuweza kuamua ishara moja au nyingine. Utahitaji tu, au unakubaliana na maoni ya programu, au ingiza tabia yako.

Kwa njia, katika nusu ya matukio, takriban, mpango huo utakupa neno lililofanywa tayari - unatakiwa kutumia panya kuchagua chaguo unayotaka.

Pili, baada ya kuangalia unahitaji kuchagua muundo uliohifadhi matokeo ya kazi yako.

Hapa FineReader inakupa upeo kamili: unaweza tu kuhamisha habari kwa Neno kwa kila mmoja, na unaweza kuilinda katika moja ya miundo kadhaa. Lakini ningependa kuonyesha kipengele kingine muhimu. Chochote muundo unachochagua, ni muhimu zaidi kuchagua aina ya nakala! Fikiria chaguzi za kuvutia zaidi ...

Nakala sahihi

Maeneo yote uliyochagua kwenye ukurasa katika hati inayojulikana itapatana na hati halisi. Chaguo rahisi sana wakati ni muhimu kwako usipoteze muundo wa maandishi. Kwa njia, fonts pia zitakuwa sawa na asili. Ninapendekeza kwa chaguo hili kuhamisha waraka kwa Neno, kuendelea na kazi zaidi huko.

Copy editable

Chaguo hili ni nzuri kwa sababu unapata toleo la awali la maandishi. Mimi Uingizaji wa "kilomita", ambayo inaweza kuwa katika hati ya awali - huwezi kukutana. Chaguo muhimu wakati utahariri habari.

Kweli, unapaswa kuchagua ikiwa ni muhimu kwako kuhifadhi mtindo wa kubuni, fonts, indents. Wakati mwingine, ikiwa kutambua sio mafanikio sana - hati yako inaweza "skew" kwa sababu ya muundo uliobadilishwa. Katika kesi hiyo, inashauriwa kuchagua nakala halisi.

Nakala ya wazi

Chaguo kwa wale wanaohitaji maandishi tu kutoka ukurasa bila kila kitu kingine. Inafaa kwa nyaraka bila picha na meza.

Hii inahitimisha skanning ya hati na makala ya kutambuliwa. Natumaini kwamba kwa msaada wa tips hizi rahisi unaweza kutatua matatizo yako ...

Bahati nzuri!