Linuxový portál
WebSite21
Oznámení o uvolnění Apache Tika 1.0
Apache Tika verze 1.0 editor a extraktor pro metadata a strukturovaný text byl vydán. Projekt byl zahájen jako podprojekt Apache Lucene v roce 2007 a stal se plným projektem v květnu minulého roku. Apache tika je tvořen sadou knihoven Java a používá řadu existujících parserů, které mu umožňují extrahovat metadata a strukturovaný text z HTML, XML, Microsoft office dokumentů (OLE2 a OOXML), OpenDocument formáty, DPF, ePub, RTF, komprimované a balené soubory obecného textu v různém kódování, Outlook a mbox mailboxes a textové soubory asociované s audio, video nebo obrázkovými soubory. Díky tomu je cenným nástrojem pro vyhledávače a další aplikace, které mohou potřebovat správů různých souborů. Tika také obsahuje grafické uživatelské rozhraní (GUI) pro zkoumání obsahu souborů interaktivně. Aktualizovaná verze 1.0 odstraňuje všechny pre-1.0 APi metody a drops retrotransled podporu Java 1.4. Také zlepšuje OSGi integraci tak, že nyní se automaticky používá s Parser a Detector službou. V poznámkách k vydání jsou uvedeny veškeré změny. Apache Tika je k dispozici ke stažení ze stránek projektu. Apache Tika je licencován pod licencí Apache 2.0. Průvodce "Začínáme" je také k dispozici ze stránek projektu.



