Mnoho aplikací, které se zabývají nestrukturovaných dat vyžadují přístup k obsahu textu formátovaných nebo značených-up dokumentů. Organizace, které archivních dokumentů často vyžadují přístup k obsahu textového pro to, aby dokumenty, vyhledávání a umožňují při tvorbě obsahu, reporting a dobývání archivu dokumentů. Vyhledávání a získávání dat i třeba extrahovat a tokenize textu z různých formátů.
Jeden standardní mechanismus pro přístup a extrahovat text z dokumentů je k dispozici plug-in rozhraní IFilter používané v vyhledávačů Microsoft. Existuje několik iFilter implementace vyvinutý společností Microsoft a jiných dodavatelů, které pokrývají širokou škálu formátů souborů. Standardní nebo těžba spolehlivost a textové kvalita kolísá mezi více vývojářů iFilter.
Opait textových filtrů je malý nástroj, pomocí jednoduchého rozhraní k IFilters, které jsou již nainstalovány na hostitelském počítači, stejně jako několik vlastní text extrakční filtry, které pracují přímo s formáty souborů a zlepšení na výchozí iFilter implementací.
, Rozhraní extrahovat text je zajištěno malé třídy knihovny s názvem Opait.Filters, který je součástí, a mohou být použity pro integraci textových filtrů do .NET aplikací
Požadavky na :
.NET Framework 4.5
Komentáře nebyl nalezen