Jelenlegi hely

Teljes név:META-CONTENTUM K+F projekt
Kezdet:2006. 06.
Lezárás:2007. 10.
Résztvevők:
  • FreeSoft Nyrt.
  • MTA SZTAKI
A projekt honlapja:http://www.contentum.hu/hu/news/meta-contentum-kf
Vezető:Kovács László

A projekt célja

A FreeSoft Rt., amelynek Contentum nevű tartalomkezelési alkalmazáscsomagja piacvezető a közigazgatási irat- és dokumentumkezelési területen, jelentős erőfeszítéseket tesz, hogy termékeinek és szolgáltatásainak színvonalát K+F projektek eredményeként megvalósítható lehetőségekkel bővítse.

A törekvés jegyében pályázott és nyert a cég a GVOP 3.3.3. program keretében a speciális, karakterhibákat toleráló, teljes szövegű kereső eljárások, valamint a dokumentumok szöveges tartalmából a dokumentumot (iratot) jellemző, osztályozó metaadatokat automatikusan kivonatoló megoldás kialakítására. A projekt 2006. június 1-el kezdődött és a tervek szerint 2007. október 5.-éig tart.

Hibatűrő, teljes szövegű keresés

Az elektronikus iratkezelő illetve dokumentumkezelő rendszerek használatánál még sokáig alapkövetelmény lesz az elektronikus és a papíralapú dokumentumok kezelésének egyidejű támogatása. Ilyen körülmények között a papírmentes iroda minél teljesebb mértékű megközelítése a papíralapú dokumentumok utólagos digitalizálásával (szkennelés + OCR) érhető el. Mindenütt, ahol nagy mennyiségű nyomtatott dokumentumot kell digitalizálni, különös érdeklődésre tartanak számot a digitalizálás költségeit csökkentő megoldások.

A hibatűrő, teljes szövegű kereső megoldás kialakítását megcélzó kutatás-fejlesztést a következő meggondolások motiválták: A hagyományos szövegdokumentumok digitalizálásának legköltségesebb mozzanat az OCR-rel kapott szövegek emberi közreműködéssel való utólagos javítgatása. Olyan esetekben, amikor a magas költséggel nyerhető pontos szöveget elsődlegesen a teljes szövegű keresés elvárt minősége teszi szükségessé, kézenfekvő költségcsökkentő alternatíva olyan hibatűrő kereső motor alkalmazása, amellyel az OCR-ezett szövegek "kézi" javítását kiiktatva sem romlik a kereső szolgáltatás minősége.

A SZTAKI teamje által tervezett kutatás egy hibrid megközelítést kíván alkalmazni, mely vegyíti a magyar nyelv szavai és szabályai alapján működő kidolgozandó fuzzy algoritmusokat a hibákkal terhelt dokumentumok elemzése során tanuló algoritmusok által generált heurisztikákkal. A projekt részét képezi az elemzés és tesztelés tárgyát képező, különböző osztályú hibákkal terhelt szövegállomány és a tesztkörnyezet felállítása. A heurisztikák és a teljes szövegű keresési algoritmusok egyesítésével kialakítandó hibrid keresési algoritmus előállítása céljából a kutatók definiálják a hibatávolság fogalmát, és erre alapozva értékelik a lehetséges algoritmus kombinációkat, végül kiválasztják az optimális elegyet. Az így kialakított hibatűrő kereső algoritmus lesz implementálva és integrálva a CONTENTUM-ba.

Automatikus metaadat-kivonatolás

A vállalatoknál és a kormányzatban keletkező nagy tömegű, digitálisan tárolt, jól strukturált szöveges információk illetve dokumentumok visszakereshetőségének és osztályozásának alapját a dokumentumokhoz társított metaadatok, metaadat-rekordok teremtik meg. Az egyik legelterjedtebb szabvány, melyet digitális gyűjtemények előszeretettel alkalmaznak az a Dublin Core Metadata Initiative által létrehozott, jelenleg 1.1-es verziószámú Dublin Core Metadata Element Set (ISO 15836-2003, 2003 Február; NISO Z39.85-2001, 2001 szeptember). Ez egy olyan séma, elemkészlet, amely tartalmazza azon elemeket, melyekre egy digitális archívumi környezetben minimálisan szükség lehet. A különféle kormányzati szerveknél illetve vállalatoknál számos más metaadatelemre is szükség van és általában Dublin Core alapú; de attól eltérő bővített metaadatsémát alkalmaznak.

A projekt olyan költségcsökkentő megoldás, az automatikus metaadat-kivonatolást végrehajtó szoftver kifejlesztését célozta meg, amely nagy tömegű digitális szöveg-dokumentumból emberi beavatkozás nélkül hozza létre a dokumentumokhoz társított nyers metaadat-rekordokat. A kutatók a projekt során feltérképezik az elérhető, metaadat-kivonatolásra alkalmas technológiákat és ezeket adaptálják az alkalmazási környezetre jellemző dokumentumhalmazokra. A kutatás elsődlegesen a kivonatolás algoritmusára és a kivonatoló rendszer arhitektúrájára irányul.