DataCleaner

Software screenshot:
DataCleaner
Podrobnosti Software:
Verze: 4.0.9
Datum uploadu: 11 Apr 16
Vývojka: -
Licence: Volný
Popularita: 17

Rating: nan/5 (Total Votes: 0)

DataCleaner je open source a zcela zdarma řešení pro organizace a podniky, které chtějí zvýšit a měření kvality svých dat.

S DataCleaner, uživatelé se budou moci profilovat, srovnávat, ověření dat proti obchodních pravidel, a sledovat průběh těchto měření v průběhu času.

Mezi její rysy, můžeme zmínit monitoring dat, profilování dat a DQ analýza, čištění dat a obohacování, detekovat a sloučit duplikáty, kvalitu zákaznických dat, stejně jako super-rychlý ETLightweight (Extract-Transform-Load).

Chcete-li se dozvědět více o funkcích a možnostech DataCleaner, stejně jako, jak s ním pracovat, naleznete http://eobjects.dk/docs

What je nového v této verzi:

  • vylepšení a nových funkcí:
  • jsme umožnilo vytvářet a mazat tabulky přes rozhraní desktop DataCleaner. Všimněte si, že termín & quot; tabulce & quot; zde ve skutečnosti pokrývá více než jen relačních databází tabulek. To také zahrnuje listů v datových úložišť MS Excel, sbírek v MongoDB, typy dokument v CouchDB a ElasticSearch a tak dále ... V podstatě všechny typy Datastore, které podporují write-operace kromě single-table datových úložišť, jako je CSV datových úložišť, podporují tuto funkci! Funkčnost je vystavena prostřednictvím:
  • & quot; vytvořit tabulku & quot; aktivována přes kontextové nabídce schémat ve stromu na levé straně aplikace.
  • & quot; vytvořit tabulku & quot; povoleno i přes stolní výběrových vstupů komponentů, jako jsou vložit do tabulky, vyhledávací tabulku a aktualizovat tabulky.
  • & quot; Drop stůl & quot; aktivována přes kontextové nabídce tabulek ve stromu na levé straně aplikace.
  • jsme přidali (volitelný) schopnost specifikovat vaše zákazníky na webu Salesforce.com webové služby Endpoint URL. To vám umožní používat DataCleaner pro připojení k izolovaném prostředí od Salesforce.com stejně vašich vlastních uživatelských koncových bodů.
  • Podpora ElasticSearch byla vylepšena, což umožňuje vlastní mapování, stejně jako opakované použití definice ElasticSearch datového úložiště nyní také pro vyhledávání a indexování.
  • Odběr vzorků záznamů a výběr potenciálních duplicit v Duplicitní funkce detekce byla vylepšena, což vede k rychlejšímu konfiguraci, protože rozhodnutí přijatá během tréninku jsou více reprezentativní.
  • Formát soubor modelu Detekce duplicitních byl aktualizován, který odstraní potřebu samostatného souboru "referenční", aby zachránil past rozhodnutí školení. Kompatibilita se starým formátem byl zachován, ale s použitím nového formátu přidává mnoho výhod pro uživatelské zkušenosti.
  • Opravy chyb:
  • A problém nit hladovění byla stanovena na monitoru DataCleaner. Dopad tohoto problému bylo skvělé, ale stalo se to jen ve vzácných a velmi přizpůsobené případech. Pokud zvyk posluchač objekty na DataCleaner monitoru by se hodit chybu, bylo by to za následek zdroj nikdy byly uvolněny a zneškodnění vlákno z Quartz-plánovací bazénu na serveru. Pokud by se to stalo mnohokrát server mohl nakonec dojdou nití v tomto fondu.
  • Svislá nabídka na obrazovce Výsledky jsou nyní dělá pořádnou práci zobrazování etikety složek, které mají výsledky. To usnadňuje rozpoznat, která položka menu body, do jaké položky výsledku.

Co je nového ve verzi 3.5.5:

  • Transformace "Synonymum vyhledávání" má nyní možnost vyhledat každý žeton vstupu. To je užitečné, pokud děláte nahrazení synonym v rozmezí hodnot dlouhého textového pole.
  • Blokování provádění DataCleaner pracovních míst prostřednictvím monitoru webové služby pro toto mohlo někdy selhat s chybou způsobenou blokovací nitě. Tento problém byl vyřešen.
  • Zlepšení byla vyrobena ve způsobu, jakým pracovní místa a sekvence komponent jsou uzavřeny / vyčištěna po spuštění.
  • JNLP / Java Web Start verze DataCleaner byl vystaven chybou v běhu Java způsobuje určité soubory JAR nesmí být uznáno WEBSTART odpalovacího zařízení, za určitých okolností. Tento problém byl vyřešen tím, že drobné úpravy na tyto soubory JAR.
  • Několik nefunkční odkazy v dokumentaci byla opravena.

Co je nového ve verzi 3.5.4:

  • Nyní je možné skrýt výstupní sloupce přeměn , Schovává nebude mít vliv na průběh zpracování vůbec, ale jednoduše schovat z uživatelského rozhraní, a tak potenciálně, aby byl systém čistší, při interakci s dalšími složkami.
  • Nová webová služba byla k monitorování webové aplikace, která poskytuje způsob dotazování stav výkonu konkrétní pracovní místo přidán.
  • A chyba byla opravena, což způsobí zprávu ve formátu HTML selhání u některých typů analýz, kdy byly zpracovány žádné záznamy.
  • A 6 dalších menších chyba byla určeno.

Co je nového ve verzi 3.5.1:

  • Zachycení změnil záznamy:
  • nový filtr byl přidán k tomu, aby postupné zpracování záznamů, které nebyly zpracovány dříve, např. profilování nebo kopírování modifikovány pouze záznamy. Název nových filtrů je zachycení změnila záznamy, s odkazem na koncept zachycení změn dat.
  • V pořadí provádění úloh:
  • DataCleaner Monitor bude nyní fronty výkon na stejné pracovní místo, je-li spuštěn vícekrát. Tím je zajištěno, že nemáte náhodou spustit stejnou práci souběžně, což může vést ke všem druhům záležitostí, v závislosti na tom, co dělá práce.
  • Drobné opravy chyb:
  • byl realizován Několik oprav chyb.

Co je nového ve verzi 3.5:

  • několik průvodců jsou nyní k dispozici pro registraci úschova; včetně souborového nahrát na server pro CSV souborů, vstup připojení k databázi, vedené evidence Salesforce.com pověřovacích listin a další.
  • Stavební práce čarodějové byly také rozšířeny o několik vylepšených funkcí; Volba distribuce hodnot a vzor zjištění polí v Průvodci rychlou analýzu, zcela nový průvodce pro vytváření EasyDQ založené zákazník čistící pracovních míst a nový Průvodce práce pro vypálení Pentaho Data Integration pracovních míst (více níže).
  • Nyní můžete ad-hoc dotazy žádný datové úložiště přímo do webového uživatelského rozhraní. To usnadňuje získat rychlé nebo ojedinělé nahlédnutí do údajů, aniž by zřizování pracovních míst nebo jiné spravované přístupy zpracování dat.
  • Po vytvoření pracovních míst nebo úschova, uživatel je veden, aby přijaly opatření s nově postaveném objektu. Například, můžete velmi rychle spustit úlohu hned poté, co je to postavené nebo dotaz datové úložiště poté, co je registrováno.
  • Administrátoři mohou nyní přímo nahrát úlohy na úložiště, což je užitečné zejména v případě, že chcete ručně upravit obsah XML souborů pracovních míst.
  • Mnoho technických cruft Nyní je ukryt ve prospěch ukazuje jednoduché dialogy. Například, je-li spuštěna úloha je zobrazen velký ukazatel zatížení, a po dokončení se zobrazí výsledek. Pokročilá obrazovka záznam, který byl dříve tam může ještě být zobrazeny po kliknutí na odkaz pro další podrobnosti.

Co je nového ve verzi 3.1.2:

  • Přidali jsme webovou službu při sledování žádost o získání (seznam) metrických hodnot. To činí sledování ještě využitelný jako součást základní infrastruktury, jako způsob, jak sledovat údaje (kvalita) a vystavit výsledky aplikací třetích stran.
  • "Tabulka vyhledávání" komponenta byla zlepšena přidáním připojit sémantiku jako konfigurovatelné majetku. Použití spojit sémantiku můžete vyladit, pokud si přejete vyhledávání pracovat sémanticky jako LEFT JOIN nebo vnitřní spojení.
  • byly Složky EasyDQ modernizovány, přidala další možnosti konfigurace a bohatšího rozhraní výsledek deduplikace.
  • Vylepšení výkonu byli konkrétní zaměření tohoto vydání. Vylepšení byly provedeny v motorech DataCleaner dále využívat přístup zpracování streaming v některých případech rohových která není hrazena dříve.

Co je nového ve verzi 3.1.1:

  • Možnosti analýzy související data a času byly rozšířeny a dodal, distribuce analyzátory pro čísla týdne, měsíce a roky. Všechny analyzátory vztahující se k datu a času jsou nyní seskupeny do podmenu s názvem & quot; Datum a čas & quot; pod & quot; Analyzovat & quot;.
  • Volitelný & quot; popisná statistika & quot; Volba byla přidána do analyzátoru číslo a datum / čas analyzátoru. Tato volba přidává další metriky na základě výsledků těchto analyzátorů, jako medián, šikmost, percentilem a špičatost. Tyto metriky jsou nepovinné, protože jejich nároky na paměť je o něco větší než stávající metrik.
  • Linky na časové ose grafy webové aplikace monitorovacího nyní mají malé tečky v nich. To je užitečné zejména pro grafy s několika málo (nebo dokonce jen jedno) pozorování v nich. - Poukázat na to, přesně tam, kde pozorovací body jsou
  • Dotaz parser při vyvolání ad-hoc dotazy byly rovněž podstatně zlepšila. Nyní dotazy mohou obsahovat zřetelný doložky, * -wildcards, Poddotazy a jsou odolné proti chybám k textu případových problémů.
  • Dvě nové transformátory byly pro generování UUID a pro generování časových razítek přidán.

Co je nového ve verzi 3.1:

  • Metric formule - rozpracovány údajů o jakosti KPI:
  • Nyní je možné vytvořit mnohem více propracovaná údajů o jakosti KPI v monitorovacím webové aplikace DataCleaner je. Uživatelské rozhraní umožňuje vytvářet složité vzorce ve vzorci stylu tabulkovém podobně; použití proměnných shromážděných DataCleaner pracovních míst.
  • metrické vzorce lze spojit libovolný počet metrik, konstant a operací, tak dlouho, jak to může být vyjádřena v matematické rovnice.
  • Například - měření rychlosti duplicitní záznamy v procentech z celkového počtu záznamů. Nebo měří množství kódů produktů, které se neřídí určitým souborem několika vzorů řetězce.
  • Ad-hoc dotazování - jakéhokoli datového úložiště:
  • S DataCleaner 3.1 nyní můžete provádět dotazy ad-hoc jakéhokoli datového úložiště! Dotazy mohou být vyjádřeny v prostém SQL a budou použity k databázím, jakož i soubory, databáze NoSQL a další, které poskytují skutečně užitečný mechanismus dotazu rozšířit do svého objevení a profilování dat zkušeností.
  • Možnost dotazu je také k dispozici prostřednictvím webové služby, aby bylo možné sledovat uživatele s rolí správce. Dotaz je poskytován jako parametr HTTP POST nebo těla, a výsledek je poskytován jako XHTML tabulky.
  • Hodnota dohazovač - nová volba analýza:
  • Často máte pevnou představu, na kterém by mělo být povoleno hodnoty a očekávané pro určité pole. V DataCleaner tu vždycky možnost analýzy Value Distribution, které by vám pomůže uplatnit své předpoklady. V DataCleaner 3.1 když máte přesnější nabídku - hodnota dohazovač. Tato volba analýza umožňuje určit sadu očekávaných hodnot a poté provést rozdělení hodnot, jako je analýza, konkrétně ověřit a zjistit neočekávané hodnoty.
  • Kopírování, mazání a řízení pracovních míst:
  • Správa pracovních míst a má za následek používání monitoru DataCleaner se výrazně zlepšila. Nyní můžete kliknout na práci při plánování straně monitoru, a najít možnosti řízení jsou k dispozici pro operace, jako přejmenování, kopírování, mazání a další. Každá operace respektuje propojení s jinými artefakty na monitoru, jako jsou výsledky analýz, termíny a další. To znamená, že vedení monitorovacího úložiště se stala mnohem jednodušší a zralý.
  • Správa historie kvalitní údaje:
  • Někdy čelíte situace, kdy jste vlastně chtějí dělat monitoring s historickými daty! To by mohlo být, že máte historické jámu či zálohy databází, které chcete zobrazovat a vyprávět příběh. Nyní můžete provést analýzu tohoto historických údajů, nahrát ji na DataCleaner monitoru, a novou webovou službu, nastavte historické údaje o daném výsledku analýzy. To znamená, že vaše časové osy budou správně vykreslovat výsledky pomocí jejich předpokládané datum, ale s výsledky, které jste shromážděné možná v pozdější době.
  • Klastru podpora plánovač (pouze EE):
  • Plánovač monitoru DataCleaner byl externalizován, takže může být nahrazena pomocí jednoduchého uspořádání. V Enterprise Edition (EE) ze dne DataCleaner, zajišťujeme seskupený plánovač, který poskytuje možnost načíst rovnováhu a distribuovat své popravy přes cluster strojů.
  • Single-signon (SSO) pomocí CAS (EE pouze):
  • V Enterprise Edition (EE) z DataCleaner jsme nyní poskytují možnost single-signon pro aplikaci monitoru. Nyní DataCleaner může být nedílnou součástí vašeho IT infrastruktura, bezpečnost-moudrý.
  • ... A mnohem více:
  • Výše ​​uvedené je jen shrnutí. Více než třicet problémy byly vyřešeny v této verzi. Řešili jsme několik žádostí pocházejících z fóra a komunity, a doporučujeme všem, aby tento prostředek používat jako prostředek pro změnu. Jsme velmi rádi, aby vývoj DataCleaner být silně ovlivněn potoků v komunitě.

Co je nového ve verzi 3.0.3:

  • Přidá služba pro přejmenování pracovních míst v monitorovacím úložišti .
  • Můžete přistupovat to jako RESTful webové služby nebo interaktivně v uživatelském rozhraní.
  • Webová služba byla přidána ke změně historické datum o výsledku analýzy v monitorovacím úložišti.
  • Webová aplikace byla provedena v souladu s odkazem JSF kontejnery.
  • mezipaměti konfigurace ve webové aplikaci byl výrazně zlepšila, což vede k rychlejšímu načítání stránek a inicializační práce časech.

Co je nového ve verzi 3.0.2:

  • Při spuštění úlohy v webové aplikace monitorování, panel auto-obnovuje každou sekundu získat nejnovější stav realizace.
  • úschova souborů na bázi (například ve formátu CSV nebo Excel tabulek) s absolutní cestou jsou nyní správně vyřešen v monitorování webové aplikace.
  • & quot; Vyberte si z klíč / hodnota map & quot; Transformátor nyní podporuje vnořených vybrané výrazy jako & quot; Address.Street & quot; nebo & quot; OrderLines [0] .product.name & quot;.
  • vyhledávací tabulky mechanismus byly optimalizovány pro výkon pomocí připravených příkazů při spuštění proti databázím JDBC.
  • Administrátoři nyní mohou stáhnout datových úložišť souborů na bázi přímo z & quot; úschova & quot; str.
  • Zpracování výjimek ve sledování webové aplikace byla zlepšena trochu, takže chybové zprávy přesnější a intuitivní.

Co je nového ve verzi 3.0.1:

  • Primární opravy chyb v této verzi byla o obnovení mapování sloupců a konkrétních vyčíslitelných kategorizací. Například v novém úplnosti analyzátoru, jsme zjistili, že po opětovném načtení uložené práci, mapování nebylo vždy správné.
  • Dále byly provedeny několik interních vylepšení, což usnadňuje nasazení monitoru webovou aplikaci DataCleaner v prostředích pomocí Spring Framework.
  • V neposlední řadě, nastavení vizualizace v desktopové aplikace byly vylepšeny tím, že automaticky při pohledu na práci je vizualizovat a přepínání zobrazeny artefakty v závislosti na velikosti obrazovky a množství podrobností nezbytných pro to ukázat pěkně.

Co je nového ve verzi 3.0:

  • Zobrazení časové osy a trendy kvality dat metriky
  • Centralizovaná úložiště pro správu a obsahující pracovních míst, vyplývá, harmonogramy atd.
  • Plánování a kontrola DataCleaner pracovních míst
  • Poskytování webové služby pro vyvolání DataCleaner transformací
  • Zabezpečení a multi-nájemní
  • Upozornění a události, kdy se kvality údajů metriky jsou z jejich požadovaný komfort zóny.
  • K dispozici je nová Úplnost analyzátor, který je velmi užitečné pro identifikaci pouze záznamy, které mají nekompletní pole.
  • Nyní můžete exportovat DataCleaner výsledky dobře vypadající HTML hlásí, že můžete dát svému nadřízenému, nebo poslat do svého XML parser!
  • Nový monitorovací prostředí je také úzce integrován s desktopové aplikace. To znamená, že desktopová aplikace má nyní možnost publikovat pracovní místa a uložená data do úložiště monitoru, a které mají být použity jako interaktivní editor pro obsah již v úložišti.
  • Nové transformace datum orientované jsou nyní k dispozici: Časové období filtr, který umožňuje podmnožinu datové sady založené na časová období, a datum formát, který umožňuje formátovat data pomocí datové masky
  • .
  • Regex analyzátor (který byl dříve k dispozici pouze přes ExtensionSwap) byla nyní zahrnuta do DataCleaner. Díky tomu je velmi pohodlné analyzovat a standardizovat bohatá textová pole pomocí regulárních výrazů.
  • Je tu nový text případ k dispozici transformátor. Díky této transformaci můžete snadno převést mezi velkými / malými písmeny a správné kapitalizaci vět a slov.
  • Dvě nové hledání / nahradit transformace byly přidány:. Plain hledání / nahradit a Regex hledání / nahradit
  • Uživatel Zkušenosti z desktopové aplikace byla vylepšena. Přidali jsme několik in-aplikací zpráv provedeny barvy vypadají jasnější a jednoznačnější a zlepšené nakládání písma.

Co je nového ve verzi 2.5.2:

  • Podpora Apache CouchDB:
  • Přidali jsme podporu pro databázi NoSQL Apache CouchDB. DataCleaner podporuje čtení, analyzování a zápis do instancí CouchDB.
  • Aktualizace tabulky spisovatel:
  • V návaznosti na naše předchozí úsilí, aby funkce ETLightweight stylu do DataCleaner jsme přidali spisovatel, který aktualizuje záznamy v tabulce. Můžete použít například pro vložení nebo aktualizaci záznamů na základě konkrétních podmínek.
  • Jako vložit do tabulky spisovatele, nová tabulka spisovatel DataCleaner Update není omezen na SQL databází na bázi, ale jakýkoliv typ datového úložiště, který podporuje psaní (v současné době relační databáze, soubory CSV, Excel, MongoDB databáze a databáze MongoDB), ale sémantika jsou stejné jako u tradičního příkazu UPDATE TABLE v SQL.
  • Drill-to-detailně informace uložené v souborech výsledků:
  • Při použití funkce šetření výslednou DataCleaner 2.5, někteří uživatelé zkušený, že jejich drill-to-detailně informace byla ztracena. V DataCleaner 2.5.2 nyní také přetrvávají tyto informace, aby vaše DQ archivy mnohem cennější při zkoumání historických dat incidentů.
  • Lepší zpracování chyb EasyDQ:
  • Součásti EasyDQ byly vylepšeny, pokud jde o zacházení s chybami. Dojde-li k momentální problém se sítí nebo jiný podobný problém způsobuje několik záznamů se nezdaří, komponenty EasyDQ bude nyní elegantně zotavit a co je nejdůležitější -. Dávkový práce bude převládat i navzdory chybám
  • mapovací tabulka pro NoSQL datových úložišť:
  • Vzhledem k tomu, CouchDB a MongoDB nejsou tabulka vychází, ale mají více dynamickou strukturu, kterou poskytujeme dva přístupy k práci s nimi: výchozí, což je nechat DataCleaner autodetekovat strukturu tabulky a pokročilé, která umožňuje ručně zadat své požadovaná struktura tabulky. Dříve pokročilá možnost byla k dispozici pouze prostřednictvím XML konfigurací, ale teď uživatelské rozhraní obsahuje příslušné dialogy, jak toho dosáhnout přímo v aplikaci.

Co je nového ve verzi 2.4.1:

  • vylepšení funkcí:
  • Batch loading funkce budeme velmi zlepšené při zápisu dat do databázových tabulek. Očekávají, že mnoho objednávek vylepšení magnitudy zde.
  • Zápis údajů bylo více pohodlně zpřístupní přidáním možnosti v nabídce okna.
  • Nyní můžete snadno přejmenovat složky úlohy dvojitým kliknutím na jejich záložky.
  • Javascript transformátor má nyní syntaxe zbarvení, takže vaše Javascripts jsou snadněji kontrolovat a upravovat.
  • Opravy chyb:
  • Při čtení a zápis do stejného datového úložiště (např. Pracovní oblasti DataCleaner) jsme se ujistili, že cache tabulky tohoto datového úložiště je svěží. Dříve některé scénáře vám umožnilo vidět out-of-date pohled na tabulky.
  • Potenciální zablokování při spuštění aplikace byl vyřešen. Toto zablokování byl důsledkem problému v JVM, ale pracovali jsme kolem něj synchronizaci všech volání na konkrétní API v jazyce Java.

Co je nového ve verzi 2.4: (. Aka Deduplication nebo Fuzzy párování záznamů)

  • Duplicitní zjišťování , který je zdarma k použití po dobu až 500.000 hodnot.
  • ověření dat o adrese a čištění. To vám umožní zkontrolovat, zda existují adresy, pokud jsou správně formátovány a dokonce navrhnout opravy v případě, že máte chyby.
  • potvrzení Název dat a čištění. S názvem služby, EasyDQ nemá formátovat nejen vaše jména důsledně, ale také kontroluje překlepy a interpretuje název součásti.
  • E-mail a validace telefon a čištění. Tyto služby poskytují kontrolu e-mailů a telefonních dat, ujistěte se, že e-mailové domény existují, že kódy zemí jsou správné a ještě mnohem více.

Co je nového ve verzi 2.3:

  • Mezinárodní podpora údaje:
  • Pokud pracujete s mezinárodními daty, pak byste měli mít různé znakové sady v datech, například čínské a hebrejské. Přidali jsme distribuční analyzátor znakovou sadu, což je možnost profilování, které umožňuje zjistit, které znakové sady se používají v datech.
  • Práce s daty obsahujícími různé znakové sady může být problematické. Pomocí nové Transliterate transformátor nyní můžete přepsat řetězce z různých systémů zápisu do latinkou.
  • K dispozici je také nový webcast demonstrace, se zaměřením na mezinárodní schopností datových DataCleaner 2,3 v sekci dokumentace.
  • Seskupení výsledků analýz sekundárním sloupec:
  • Analyzátor vzor je nyní schopen skupiny vzorů na základě sekundární koloně. To je užitečné pro analýzy, jako jsou:
  • Získat vzory telefonních čísel, seskupených podle jednotlivých zemí.
  • Získat vzory e-mailové uživatelské jméno založené na e-mailové domény.
  • Něco podobného bylo provedeno pro Value Distribution analyzátoru; to umožňuje analýzy, jako jsou:
  • Jsou všechny názvy měst zřetelný, když seskupeny podle poštovního směrovacího čísla?
  • Jaké je rozložení pohlaví v rámci jednotlivých typů zákazníků?
  • Lepší grafy:
  • Výsledky Pattern nálezce může být nyní zobrazeny v grafu. Tím se distribuce viditelná a ukazuje, jak moc & quot; dlouhým ocasem & quot; vzorů je zde.
  • Výstup distribuční hodnota analyzátoru byl vylepšen v několika oblastech:
  • Čitelnost grafu byla zlepšena.
  • Ukazuje celkový počet řádků a zřetelný hlas nad těmito řádky: počet různých hodnot, které existují v řadách. To pomáhá při přijít na to, jak často existují duplicitní hodnoty.
  • Pokud existují prázdné řetězce, my používáme klíčové slovo pro to, takže je snazší rozpoznat.
  • Výstup:
  • Vedle již existujících výstupních formátů (CSV souborů a datových úložišť H2) jsme přidali psaní výstup do tabulkového procesoru Excel.
  • Po zápisu do datového úložiště, je nyní možné náhledu výstup, takže můžete zkontrolovat, zda je výstup podle vašich očekávání.
  • Nyní je také možné přidat výstup jako nový datového úložiště, tak, aby mohl být použit jako vstup pro novou práci.
  • Další vylepšení:
  • Dokumentace byla obecně zlepšila. Zejména mají těžba dřeva a rozhraní příkazového řádku popisy byla přidána.
  • Rozšíření mechanismus byl vylepšen modularizing několik kusů žádosti a zavádí Google Guice jako obecně dostupné rámci vkládání závislostí pro vývojáře rozšíření.
  • A samozřejmě jsme udělali více než dvacet malých vylepšení a opravy chyb.

Co je nového ve verzi 2.2:

  • Hlavním důvodem pro toto vydání byl příběh o rozšiřitelnosti , Zatímco uvolnění aplikace jsme simultaniously uvolnění webové stránky nový DataCleaner který se vyznačuje novou důležitou oblast: ExtensionSwap. Myšlenka ExtensionSwap je umožnit sdílení rozšíření k DataCleaner a instalace pouhým klepnutím na tlačítko v prohlížeči!
  • DataCleaner rozšíření API bylo hodně zlepšila v této tiskové zprávě, aby bylo možné vytvořit svůj vlastní transformátory, analyzátory a filtry. Pokud máte pocit, vaše rozšíření by mohlo být předmětem zájmu ostatních uživatelů, prosím podělte se o ExtensionSwap a zajišťujeme kanál pro vás snadno distribuovat tisíce uživatelů. Extension API a ExtensionSwap je dále vysvětleno v našem novém webcast demonstraci pro vývojáře a ostatní Technici se zájmem.
  • Jsme také uvolňovat souboru počátečních rozšíření na ExtensionSwap: The HIquality Kontakty pro DataCleaner rozšíření, která poskytuje pokročilé jméno, telefonní a e-mailové očištění, založené na lidské úsudky zpracování přirozeného jazyka DQ webových služeb. Jsme také lodní rozšíření vzorek, který bude sloužit jako příklad pro vývojáře, kteří chtějí vyzkoušet rozvoji prodlužovací sami. V nadcházejících měsících budeme ujistěte se, že přidání ještě více rozšíření pocházející z našeho vnitřního portfolia nástrojů, které používáme v týmech Human dedukcí své znalosti shromažďování.
  • Kromě rozšiřitelnosti jsme také se zaměřením na embeddability. Chceme být schopni vložit DataCleaner jednoduše do jiných aplikací, aby se profilování a analýzu dat možné kdekoliv! Vytvořili jsme novou bootstrapping API, které umožňuje aplikacím svazek DataCleaner a bootstrap to s dynamickou konfiguraci nebo spustit jej na & quot; režimu jednoho datového úložiště & quot ;, ve kterém se žádost naladěné vůči právě prohlížel jeden datové úložiště (typicky definovaná aplikací že vloží DataCleaner). Už máme nějaké opravdu zajímavé případy vkládání DataCleaner v pracích. - a to jak v jiných open source aplikací, jakož i komerčních aplikací
  • Přidali jsme podporu pro analýzu datových souborů SAS. To je něco, co jsme docela pyšný jako my, pokud je nám známo, první hlavní open source aplikace poskytovat takové funkce, nakonec osvobozující mnoho uživatelů SAS. Interoperabilita část SAS byl vytvořen jako samostatný projekt, SassyReader, takže očekáváme přijetí v DataCleaner je bezplatné open source komunit brzy taky!
  • jsme také přidal podporu pro jiný typ datového úložiště: s pevnou šířkou souborů. S pevnou šířkou jsou textové soubory, kde každý sloupec má pevnou šířku. Neexistuje žádný oddělovací nebo citace znak, jako CSV souborů, místo toho každý řádek jsou stejné délky a každý řádek bude tokenized podle souboru délek hodnoty.
  • Možnost, aby & quot; selhat na nesrovnalosti & quot; byl přidán do souboru ve formátu CSV a pevnou šířkou souborů datových úložišť. Tyto příznaky při použití těchto datových úložišť na bázi textových souborů přidat kontrolu integrity formátu.
  • A chyba byla opravena, což způsobilo nastavení CSV oddělovací nesmí být uchovány v uživatelském rozhraní, při úpravě CSV datové úložiště.
  • Japonské a jiné znaky nejsou podporovány v uživatelském rozhraní. To & quot; bug & quot; Byla to otázka vyšetřování dostupné fonty v systému a výběr fontu, který může vykreslit jednotlivé znaky. Na většině moderních systémů bude schopné písma k dispozici, ale na některých pobočkách Unix / Linux může existovat omezení.
  • V části dokumentace byla aktualizována! Od chvíle, kdy první verzi 2.0 dokumentace byly daleko za sebou, ale my jsme se konečně podařilo dostat ji v aktuálním stavu. Stále existují kousky chybí v docs, ale mělo by to rozhodně být užitečné pro základní práci, stejně jako reference pro většinu témat.
  • Doba spuštění aplikace byla zlepšena paralelizační konfigurační zatížení a tím oddaluje inicializaci těch částí konfigurace, které nejsou potřebné pro počáteční zobrazení okna.
  • fonetická podobnost nálezce analyzátor byly odstraněny z hlavní části distribuce, protože to byl docela experimentální a slouží většinou jako důkaz pojetí a aperitiv ke komunitě vytvořit vyspělejší odpovídající analyzátory. Nyní můžete najít a nainstalovat fonetická podobnost nálezce na ExtensionSwap.
  • Zrušeno nebo errornous manipulace úloha byla zlepšena a uživatelské rozhraní reaguje správně zakázáním tlačítka a ukazatele pokroku, pokud byla zastavena práce.
  • Opraveno několik menších UI otázky týkající se stolním dimenzování a použití posuvníky.

Co je nového ve verzi 2.1.1:

  • Vylepšení:
  • přidáno textové pole vyhledávání / filtrování na seznamu datových úložišť. To umožňuje rychle najít své datové úložiště, pokud jste registrováno více než úschova k dispozici na obrazovce.
  • Referenční data pro kódy zemí byla přidána do standardní distribuce, dík patří Graham Rhind za poskytnutí těchto.
  • Přidána vodorovný posuvník k údajům náhledu oken existuje více než 10 sloupce.
  • Možnost přidat balíček rozšíření s novými funkcemi v dialogovém okně Možnosti za běhu. Více zaměřit na rozšíření budou následovat v příštích vydáních.
  • jsme vystaveni časný náhled našeho rozhraní příkazové řádky (CLI) tím, že umožňuje vyvolat aplikace s & quot; -usage & quot; parametr, který ukáže možnosti CLI.
  • přidáno číslo volby na formátování & quot; Převést na číslo & quot; transformátor.
  • Opravy chyb:
  • Pevná out-of-paměti problém při dotazování tabulek s množstvím sloupců (150 +).
  • Opraven problém, který způsobuje & quot; Limit analýza & quot; zaškrtnutí políčka není správně kontrolovat, kdy byla znovu otevřena úloha po uložení.
  • Ne tak docela opravy chyb, jak to bylo nikdy oficiální funkce, ale nyní podporují obnovu uživatelských preferencí (soubor userpreferences.dat) z předchozích verzí DataCleaner.

Co je nového ve verzi 2.1:

  • Byla tam spousta práce vykonané na uživatelském rozhraní ( viz strana média):
  • Rozhodli jsme se odstranit okno levá strana obsahuje možnosti konfigurace prostředí.
  • Místo toho, všechny tyto možnosti nyní byly přesunuty do okna budovy zaměstnání, takže uživatel musí zaměřit pouze na jediném okně pro všechny interakce potřebné k vybudování práci.
  • Dialog vítány / login byl také odstraněn ve prospěch více diskrétní panel, který lze stáhnout nebo skryté z hlavního okna.
  • výběr a správu Datastore je považován za první aktivita v žádosti, což je důvod, proč je to také první krok ke zpracování v hlavním okně.











Ukázky

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

Podobný software

Ostatní software developer -

apophysis-j
apophysis-j

11 Apr 16

quagga
quagga

11 Apr 16

Total.js
Total.js

10 Dec 15

Komentáře k DataCleaner

Komentáře nebyl nalezen
Přidat komentář
Zapnout obrázky!