Publikacije Blog » Blog Archive » Digitalizacija besedil (OCR, image recognition, e-knjižnjice)

Digitalizacija besedil (OCR, image recognition, e-knjižnjice)

April 12th, 2007

Digitalizacija besedil je definitivno eden od naslednjih korakov pri ohranjanju kulturne dediščine in dokumentov nasploh. Smešno namreč je, da ogromno državnih organov še vedno ohranja v tiskani obliki in jih po potrebi pretipka (!) na računalnik. Optical character recognition (OCR) programska oprema je pri tem ključnega pomena, saj nam omogoča digitalizacijo gradiva brez ponovnega tipkanja.

Najpopularnejši OCR programi:

www.abbyy.com/finereader_ocr/

www.nuance.com/omnipage/

www.irislink.com/c2-532/OCR-Software—Product-list.aspx

www.newsoftinc.com/products/product-main.asp?productid=NAI0011

Precej uporaben je tidi Microsoftov izdelek: office.microsoft.com/en-us/help/HP010771031033.aspx

Precej zanimiva stvar je tudi: office.microsoft.com/en-us/help/HP010771031033.aspx

ki omogoča, da jim fotografijo iz mobilnega telefona pošljete kar po emailu.

Kot sponzor se je pa enemu projektu ( code.google.com/p/ocropus/ ) pridružil tudi Google, vodja projekta pa pravi da:

“The goal of the project is to advance the state of the art in optical character recognition and related technologies, and to deliver a high quality OCR system suitable for document conversions, electronic libraries, vision impaired users, historical document analysis, and general desktop use,” explains Thomas Breuel, who leads the project.

V procesu je tudi digitalizacija slovenskega gradiva, ki ga avtorsko pravo ne ščiti več, upamo lahko le, da ga bodo digitalizatorji ponudili pod kakšno čimbolj svobodno licenco. =)

Lep sonček še naprej! =)

Matevž

Ali se ti zdi ta objava uporabna?

5 Responses to “Digitalizacija besedil (OCR, image recognition, e-knjižnjice)”

  1. Jure Says:

    Ubistvu noces tega zadnjega. Ce je nekaj v public domainu ga noces zaklenit spet s kaksno novo licenco. Public domain je najbolj prosta stvar, ki si jo lahko zamislis. Zakaj bi nanjo obesil nekaj kar ti jemlje pravice?

  2. Matevz Says:

    zelo res, ker pa je tudi digitalizacija avtorsko delo ga lahko človek ščiti s poljubno licenco, predlagam najbolj public obliko (torej CC 2.5), se pa strinjam s tabo (mal sem na hitr tipkal =))

  3. Jure Says:

    “ker pa je tudi digitalizacija avtorsko delo” - mas mogoce vir za tole?

  4. Matevz Says:

    Ups, sem mal pogledal v ZASP, predelava dela je avt. delo, zgolj digitalizacija pa ne (torej ščiti se lahko napr. Multimedijska predstavitev nekega dela ali rekonstrukcija nekega dela, res pa ne zgolj OCR scan)..

    Če pa zgolj karikiram, kje to odpove: Založbe, ki ustvarjajo ponatise Public Domain avtorskih del, nam te svoje ponatise prodajajo v obliki tiskanih knjig, nikakor jih pa ne objavijo v digitalni obliki (ctrl+F, copy pasteanje in pa seveda printanje so fajn stvar =)

    Ker se mi zdi butasto, da preskenirane in OCRjane stvari ljudje za svojo uporabo skeniramo še enkrat (itak so public domain) sem namignil, da bi nam jih lahko nekdo ponudil v odprti dostop. =)

    Upam, da sem se mal lepš (in bolj pravilno) izrazil? =)
    Lp, Matevž

  5. ivan Says:

    Mogoče ve kdo kako je avtorskimi pravicami na področju e-založništva in e-knjig?
    Hvala.

Leave a Reply