Digitalizacija besedil (OCR, image recognition, e-knjižnjice)
April 12th, 2007Digitalizacija besedil je definitivno eden od naslednjih korakov pri ohranjanju kulturne dediščine in dokumentov nasploh. Smešno namreč je, da ogromno državnih organov še vedno ohranja v tiskani obliki in jih po potrebi pretipka (!) na računalnik. Optical character recognition (OCR) programska oprema je pri tem ključnega pomena, saj nam omogoča digitalizacijo gradiva brez ponovnega tipkanja.
Najpopularnejši OCR programi:
www.irislink.com/c2-532/OCR-Software—Product-list.aspx
www.newsoftinc.com/products/product-main.asp?productid=NAI0011
Precej uporaben je tidi Microsoftov izdelek: office.microsoft.com/en-us/help/HP010771031033.aspx
Precej zanimiva stvar je tudi: office.microsoft.com/en-us/help/HP010771031033.aspx
ki omogoča, da jim fotografijo iz mobilnega telefona pošljete kar po emailu.
Kot sponzor se je pa enemu projektu ( code.google.com/p/ocropus/ ) pridružil tudi Google, vodja projekta pa pravi da:
“The goal of the project is to advance the state of the art in optical character recognition and related technologies, and to deliver a high quality OCR system suitable for document conversions, electronic libraries, vision impaired users, historical document analysis, and general desktop use,” explains Thomas Breuel, who leads the project.
V procesu je tudi digitalizacija slovenskega gradiva, ki ga avtorsko pravo ne ščiti več, upamo lahko le, da ga bodo digitalizatorji ponudili pod kakšno čimbolj svobodno licenco. =)
Lep sonček še naprej! =)
Matevž
Ali se ti zdi ta objava uporabna?
April 12th, 2007 at 7:19 pm
Ubistvu noces tega zadnjega. Ce je nekaj v public domainu ga noces zaklenit spet s kaksno novo licenco. Public domain je najbolj prosta stvar, ki si jo lahko zamislis. Zakaj bi nanjo obesil nekaj kar ti jemlje pravice?
April 12th, 2007 at 7:41 pm
zelo res, ker pa je tudi digitalizacija avtorsko delo ga lahko človek ščiti s poljubno licenco, predlagam najbolj public obliko (torej CC 2.5), se pa strinjam s tabo (mal sem na hitr tipkal =))
April 13th, 2007 at 3:41 am
“ker pa je tudi digitalizacija avtorsko delo” - mas mogoce vir za tole?
April 13th, 2007 at 8:10 am
Ups, sem mal pogledal v ZASP, predelava dela je avt. delo, zgolj digitalizacija pa ne (torej ščiti se lahko napr. Multimedijska predstavitev nekega dela ali rekonstrukcija nekega dela, res pa ne zgolj OCR scan)..
Če pa zgolj karikiram, kje to odpove: Založbe, ki ustvarjajo ponatise Public Domain avtorskih del, nam te svoje ponatise prodajajo v obliki tiskanih knjig, nikakor jih pa ne objavijo v digitalni obliki (ctrl+F, copy pasteanje in pa seveda printanje so fajn stvar =)
Ker se mi zdi butasto, da preskenirane in OCRjane stvari ljudje za svojo uporabo skeniramo še enkrat (itak so public domain) sem namignil, da bi nam jih lahko nekdo ponudil v odprti dostop. =)
Upam, da sem se mal lepš (in bolj pravilno) izrazil? =)
Lp, Matevž
October 13th, 2010 at 3:02 pm
Mogoče ve kdo kako je avtorskimi pravicami na področju e-založništva in e-knjig?
Hvala.