Digitalizacija besedil je definitivno eden od naslednjih korakov pri ohranjanju kulturne dediščine in dokumentov nasploh. Smešno namreč je, da ogromno državnih organov še vedno ohranja v tiskani obliki in jih po potrebi pretipka (!) na računalnik. Optical character recognition (OCR) programska oprema je pri tem ključnega pomena, saj nam omogoča digitalizacijo gradiva brez ponovnega tipkanja.
Najpopularnejši OCR programi:
www.abbyy.com/finereader_ocr/
www.nuance.com/omnipage/
www.irislink.com/c2-532/OCR-Software—Product-list.aspx
www.newsoftinc.com/products/product-main.asp?productid=NAI0011
Precej uporaben je tidi Microsoftov izdelek: office.microsoft.com/en-us/help/HP010771031033.aspx
Precej zanimiva stvar je tudi: office.microsoft.com/en-us/help/HP010771031033.aspx
ki omogoča, da jim fotografijo iz mobilnega telefona pošljete kar po emailu.
Kot sponzor se je pa enemu projektu ( code.google.com/p/ocropus/ ) pridružil tudi Google, vodja projekta pa pravi da:
“The goal of the project is to advance the state of the art in optical character recognition and related technologies, and to deliver a high quality OCR system suitable for document conversions, electronic libraries, vision impaired users, historical document analysis, and general desktop use,” explains Thomas Breuel, who leads the project.
V procesu je tudi digitalizacija slovenskega gradiva, ki ga avtorsko pravo ne ščiti več, upamo lahko le, da ga bodo digitalizatorji ponudili pod kakšno čimbolj svobodno licenco. =)
Lep sonček še naprej! =)
Matevž