MDP (Modulární sadu nástrojů pro zpracování dat) je knihovna široce používané algoritmy pro zpracování dat, které lze kombinovat podle potrubí analogie vybudovat složitější zpracování dat software.
Z pohledu uživatele, MDP se skládá ze sbírky kontrolovaných a nekontrolovaných učení algoritmů a další zpracování dat jednotky (uzly), které mohou být kombinovány do sekvencí, zpracování dat (toky) a složitějšími krmných vpřed síťových architektur. Vzhledem k tomu, sada vstupních dat, MDP se stará o sobě vzdělávací nebo vykonávající všechny uzly v síti. To umožňuje uživateli specifikovat složité algoritmy jako série jednodušších zpracování dat kroků v přirozeným způsobem.
Základ dostupných algoritmů je neustále roste a zahrnuje, abychom jmenovali jen nejčastější, Principal Component Analysis (PCA a NIPALS), několik algoritmů Independent Component Analysis (CuBICA, FastICA, TDSEP, JADE, a XSFA), Slow Analýza Feature, Gaussian Classifiers, Restricted Boltzmann strojů a lokálně lineární vkládání.
Zvláštní pozornost byla věnována aby výpočty účinný z hlediska rychlosti a paměti. Chcete-li snížit požadavky na paměť, je možné provést pomocí učení šarží dat, a definovat vnitřní parametry uzlů být jediný přesnost, což umožňuje využití velmi velké dat nastaví možné. Kromě toho, "paralelní" subpackage nabízí paralelní provádění základních uzlů a toků.
Z pohledu developera, MDP je rámec, který umožňuje zavádění nových dohledem a bez dohledu učení algoritmů snadné a přímočaré. Základní třída, "Node", stará se o nudné úkoly, jako je numerickým typu a kontrolu dimenzionality, takže vývojáři soustředit na realizaci učení a exekučních fází. Vzhledem k tomu, společné rozhraní, uzel pak automaticky integruje se zbytkem knihovně a mohou být použity v síti spolu s ostatními uzly. Uzel může mít více fází školení a dokonce i neurčený počet fází. To umožňuje realizaci algoritmů, které potřebují sbírat některé statistiky týkající se celého vstupu před samotným školení, a další, které potřebují k iteraci přes tréninkovou fází, dokud konvergenční kritérium je spokojen. Schopnost trénovat každou fázi pomocí kousky vstupních dat je zachována, pokud jsou kusy jsou generovány s iterátory. Navíc, crash zotavení je volitelně k dispozici: v případě poruchy, současný stav průtoku je uložit pro pozdější kontrolu.
MDP byl zpracován v kontextu teoretického výzkumu v neuroscience, ale byl navržen tak, aby bylo užitečné v jakékoliv situaci, kdy se používají algoritmy pro zpracování trainable dat. Jeho jednoduchost na straně uživatele spolu s znovupoužitelnosti realizovaných uzlů, aby to také platný vzdělávací nástroj
Co je nového v této verzi:.
- Python 3 podporu.
- Nové rozšíření: ukládání do mezipaměti a spád .
- zlepšil a rozšířil tutorial.
- Několik vylepšení a opravy chyb.
- Tato verze je pod licencí BSD.
Co je nového ve verzi 2.5:
- 2009-06-30: Přidána on-line detekce numerické backend , paralelní podpora python, symeig backend a numerické backend na výstup jednotkových testů. Měl by pomoci při ladění.
- 2009-06-12:. Integrace cutoffu a histogramu uzlů
- 2009-06-12:. Opravena chyba v paralelním průtoku (zpracování výjimek)
- 06.9.2009: Opravena chyba v LLENode kdy output_dim je plovák. Díky Konrad Hinsen.
- 2009-06-05:. Opraveny chyby v paralelním průtoku pro více plánovačů
- 2009-06-05:. Opravena chyba ve vrstvě inverzní, díky Alberto Escalante
- 2009-04-29:. Přidána LinearRegressionNode
- 2009-03-31: PCANode nestěžuje, když už kovarianční matice má negativní vlastní čísla IFF SVD == True nebo snížit == true. Pokud output_dim byl specifikován má potřebnou rozptyl, negativní vlastní čísla jsou ignorovány. Lepší chybová zpráva pro SFANode v případě negativních čísel, nyní naznačují, předřadit uzel s PCANode (SVD = true) nebo PCANode (snížení = TRUE).
- 2009-03-26: stěhovali od starého závitu balíčku k novému závitu jedné. Přidána vlajka zakázat ukládání do mezipaměti v procesu plánovače. Tam jsou některé vypínací změny pro vlastní plánovače (paralelní školení průtok nebo exekuce není ovlivněna).
- 2009-03-25:. Přidána svn revize sledování podpora
- 2009-03-25: Odstraněno copy_callable vlajku pro plánovače, to je nyní kompletně nahrazen větvení na TaskCallable. To nemá žádný vliv na pohodlné ParallelFlow rozhraní, ale vlastní plánovače dostat zlomené.
- 2009-03-22:. Provedeno ukládání do mezipaměti v ProcessScheduler
- 2009-02-22:. Make_parallel nyní pracuje zcela na místě pro úsporu paměti
- 02.12.2009:. Přidána kontejnerové metody pro FlowNode
- 2009-03-03:. Přidáno CrossCovarianceMatrix s testy
- 2009-02-03:. Přidáno IdentityNode
- 2009-01-30:. Přidána pomocné funkce v hinet přímo zobrazit reprezentaci toku HTML
- 2009-01-22:. Povolit output_dim ve vrstvě, které mají být nastaveny líně
- 2008-12-23:. Přidána total_variance do uzlu nipals
- 2008-12-23:. Vždy nastavte explained_variance a total_variance po výcviku v PCANode
- 12.12.2008: Modifikovaná symrand opravdu vrátit symetrické matice (a nejen pozitivně definitní). Upraveno GaussianClassifierNode k účtu pro to. Upraveno symrand vrátit také komplexní Hermitovské matice.
- 2008-12-11: Opraven jeden problém v PCANode (kdy output_dim byl nastaven na input_dim celkový rozptyl byl zpracován jako neznámé). Pevné var_part parametr ParallelPCANode.
- 2008-12-11:. Přidána var_part rysem PCANode (filtr podle rozptylu vzhledem k absoute variance)
- 2008-12-04: Pevná chybějící osy arg v Amax volání v tutoriálu. Díky Samuel John!
- 2008-12-04: Pevná prázdný Zpracování dat v ParallelFlow iterátor. Také přidal prázdné šeky iterátor v normálním průtoku (zvýšit výjimku, pokud iterator je prázdný).
- 2008-11-19: Modifikovaná PCA a SFA uzly pro kontrolu negaive čísel v COV matricích
- 2008-11-19: symeig integrované v scipy, MDP jej použít z tam teď .
- 2008-11-18:. Přidáno ParallelFDANode
- 2008-11-18:. Aktualizováno vlak disponibilní pro ParallelFlow podporovat další argumenty
- 2008-11-05: přepsání make paralelního kódu, nyní podporuje hinet struktury .
- 11.3.2008: přepsání hinet HTML repesentation tvůrce. Bohužel to také rozbije veřejné rozhraní, ale změny jsou docela jednoduché.
- 2008-10-29: Vypněte varování pocházející ze vzdálených procesů v ProcessScheduler
- 2008-10-27:. Opraven problém s přepsáním kwargs v metodě init z ParallelFlow
- 2008-10-24:. Opravena pretrained uzly chyba v hinet.FlowNode
- 2008-10-20:. Opravena kritická chyba v paralelním import balíčku, pokud je nainstalován pp (paralelní Python knihovna)
Požadavky na :
- Python
- NumPy
- scipy
Komentáře nebyl nalezen