LanguageTool je open source korektury program, jehož cílem najít chyby, které se pravidelně pravopisu nástroje nelze detekovat. Je založený na pravidlech stylu a gramatiky, že bude najít chyby, pro které je pravidlo stanovené ve svých konfiguračních souborů XML, jako je směšování & ldquo; jejich & rdquo; s & ldquo;. tam & rdquo;
Detekuje různé problémy gramatiky
Program umí také detekovat různé problémy gramatiku a přichází s podporou pro více než 20 jazyků, včetně angličtiny, němčiny, polštiny, francouzštiny, španělštiny, švédštiny, řečtiny, čínštiny, japonštiny, dánštině, islandské, portugalské a brazilské portugalštině.
Navíc, to se může pochlubit snadno použitelné, jednoduché a přímočaré grafické uživatelské rozhraní, které umožňuje, aby někdo vložit text, který je třeba kouzlo kontrolovány. To můžete zkontrolovat text do schránky, tag textu, cut / copy / paste textu, a pobývat v oblasti system tray.
Detekuje široký rozsah problémů
V dialogovém okně Možnosti, můžete povolit, jaký typ problémů, aplikace může odhalit, včetně špatný styl, gramatické chyby, slang, chyby interpunkce, případné překlepy, redundantní fráze, běžně zaměnit slova, slovních spojení, kapitalizace, sémantiky, jakož i jako non-standardní fráze.
LanguageTool pro LibreOffice a OpenOffice
Kromě toho, že samostatná aplikace, LanguageTool je také k dispozici jako rozšíření pro dva z nejoblíbenějších a výkonných open-source kancelářské balíky, LibreOffice a OpenOffice.org Apache, který umožňuje uživatelům, aby zkorigovat své texty kliknutím pravým tlačítkem myši na vybrané fráze nebo odstavce.
LanguageTool pro Mozilla Firefox
Navíc, aplikace je také k dispozici ke stažení jako add-on pro svět a rsquo; s nejpopulárnější open-source webový prohlížeč na světě, Mozilla Firefox. To vyžaduje restart a umístí malé tlačítko na hlavním panelu, která vám umožní zkorigovat zvýrazněného textu z internetových stránek nebo formulářů.
Pod kapotou a dostupnost
Aplikace je zcela napsané v programovacím jazyce Java, což znamená, že & rsquo; sa cross-platform software, určený pro práci s jakýmkoliv distribucí GNU / Linuxu, stejně jako BSD, Solaris, Microsoft Windows a Mac OS X operační systémy, kde Java Runtime Environment je nainstalován.
Co je nového v této verzi:
- Katalánština:
- aktualizováno POS tag Slovník
- přidá nová pravidla
- fixní falešné poplachy
- anglicky:
- přidal několik pravidel a pevné několik falešných poplachů
- přidala mnoho pravidel nového stylu přispěly Heikki Lehvaslaiho. Jelikož tyto mohou způsobit falešné poplachy, které nejsou ve výchozím nastavení aktivována. Můžete je aktivovat zapnutím všemi pravidly v nové "jednoduché angličtině" kategorie.
- Esperanto:
- přidal několik nových pravidel
- French
- aktualizováno POS tag slovník a Hunspell slovník do Dicollecte-5.3
- němčina:
- přidal několik nových pravidel a pevných falešné poplachy
- Přidána nové pravidlo, které kontroluje dohodě předmět slovesa. Pro tuto chvíli jsou podporovány pouze případy s "IST", "sind", "válka" a "Waren". Příklad chyby, které jsou detekovány: '. Der Hund sind schA & parašutista, n', 'Die auta ist Schnell. " Chcete-li toto pravidlo práci, věty jsou nyní sjednoceny v disambiguation.xml: například, "Mann" ve výrazu "ein Mann 'udrží pouze svou jmenovaný čtení (SUB: NOM: sin: MAS), zatímco míval také akuzativ a dative hodnoty (SUB: AKK: SIN: MAS, SUB: DAT: SIN: MAS). (Https://github.com/languagetool-org/languagetool/issues/233)
- italština:
- zlepšilo několik pravidel
- Polish:
- přidal několik nových pravidel
- portugalština:
- přidány / zlepšených několik pravidel,
- 3695 složených slov (pre-reforma) - největší volný databáze
- Ruská:
- přidal a lepší pravidla
- ukrajinština:
- big aktualizace Slovník
- Nová pravidla gramatika
- Nový jednoduchý nahradit pravidlo pro měkké návrhy
- vylepšení disambiguator
- sloučenina značkování a pravopisné vylepšení
- iniciály značkování
- větné a slovní zlepšení tokenizaci
- lepší manipulaci stres symbolu a měkké spojovník
- pravidla Bitext:
- přidal jednoduché pravidlo pro kontrolu, zda překlady končí stejným interpunkční znaménko jako originál (to zahrnuje pouze.?! Znaků).
- je nyní možné přidat externí soubory bitext pravidlo na příkazovém řádku, pomocí
- -bitextrule možnost. Cesta k souboru musí být absolutní. Poznámka:. Toto umožňuje použití bitext pravidla i pro jazyky, které nemají pravidla bitext ve výchozím nastavení
- Pravopis:
- Nové soubory na /hunspell/spelling.txt lze použít k přidání akceptované slova do pravopisu, které jsou rovněž považovány za při vytváření návrhů na chybně napsaná slova. To je podobné /hunspell/ignore.txt souborů, které seznam přijatých slova, která jsou * není * použity při vytváření návrhů na chybně napsaná slova.
- API:
- JLanguageTool.activateDefaultPatternRules () a JLanguageTool.activateDefaultFalseFriendRules () byly odstraněny - všechna pravidla typu a pravidla false friend (pokud je zadán druhý jazyk) se nyní aktivuje automaticky, když konstruktér JLanguageTool se nazývá. Pokud potřebujete checker bez pravidel vzoru založené na XML, rozšířit své jazykové třídy (např 'anglický'), s jedním, který přepíše getPatternRules () metoda a vrací prázdný seznam neexistuje.
- ManualTagger.lookup () byl nahrazen ManualTagger.tag () poté, co byla zavržena, neboť nejnovější verzi
- Všechny statické metody a pole ze třídy "Language" byly přesunuty do nové třídy "jazyky". Pro tuto chvíli, metody / pole ve třídě jazyka stále ještě existují, ale byly zastaralé.
- LanguageIdentifierTools byla odstraněna. Používejte LanguageIdentifier místo.
- Odstraněna (Výchozí) ResourceDataBroker.setResourceDir () a setRulesDir (), protože ty lze nastavit pomocí konstruktoru
- vyčištěn up třída přispěvatele, např. odstranění getRemark ()
- Category.setDefaultOff () byla odstraněna, lze nastavit pomocí konstruktoru teď
- Přejmenované třídy: o.lt.rules.patterns.Element = & gt; o.lt.rules.patterns.PatternToken o.lt.rules.patterns.ElementMatcher = & gt; o.lt.rules.patterns.PatternTokenMatcher
- Ostatní malé pročištění API, které by nemělo mít vliv na běžné případy použití, např IncorrectExample.getCorrections () vrací a unmodifiable seznam nyní, odstranění zastaralých metod.
- Embedded server:
- XML útěku byla stanovena, to by mohlo způsobit neplatné XML dokumenty, které mají být vráceny
- Nová možnost config file 'maxWorkQueueSize ", který vám umožní nastavit maximální velikost požadavku fronty - pokud se dostane větší než to, bude žádosti byly zamítnuty (503 Služba není dostupná)
- Server nyní odpoví konkrétnější kódy stavu protokolu HTTP na tyto chybové stavy: 413 Request Entity příliš velké - pokud je text přesahuje maximální velikost textu 503 Služba není k dispozici - pokud kontrola překračuje maximální časové kontroly
- GUI:
- stand-alone GUI nyní může trvat obyčejný textový soubor jako argument, tento soubor pak bude naloženo na startu (Github problém # 232).
- příkazového řádku:
- Nyní je možné přidat externí pravidlo souboru při volání LanguageTool z příkazového řádku. Použijte --rulefile přidat soubor. Pokud název souboru má formát, který obsahuje název jazyka, bude použita spolu s dalšími pravidly; jinak, nahradí pravidla. Můžete také načíst externí soubor s falešnými přáteli pomocí možnosti --falsefriends. Název souboru by měl být cesta k souboru absolutní, a falešné soubory přítel se vždy přidá k těm, které jsou načteny pro jazyk. (Github problém # 192)
- syntaxe pravidlo:
- pravidlo může teď mít jediný příklad větu tak dlouho, jak to má "korekční" atributu - to může ušetřit nějaké nadbytečnost v případě, jediný správný věta je stejný jako nesprávné věty s korekcí aplikovaného. Předtím, pravidlo potřeboval alespoň dva ukázkové věty.
- "příklad" element: type = "nesprávné" Nyní je povinné, pokud tam je "korekce" atribut. "Korekce" atributu znamená, že věta je nesprávná.
- "příklad" element: type = "správné" je nyní nepovinný. Žádné "typ" atributu a ne "korekce" atributu znamená, že věta je v pořádku.
- Vnitřní:
- jsme přešli od Apache Tika do jazyka-detektor (https://github.com/optimaize/language-detector) pro automatickou identifikaci jazyka textu. To by mělo být rychlejší a výsledky by měly být spolehlivější. Detekce Asturian a galicijský musel být zakázáno, protože kvalita detekce byla příliš nízká, a také ovlivněna detekci španělštiny.
- Opravena regrese, která dělala to nemožný pro načtení externích souborů pravidel v GUI.
Vylepšení
Co je nového ve verzi 2.8:
- Asturština:
- odstranit závislost na Hunspell, nyní používá Morfologik pro kontrolu pravopisu
- Breton:
- přidal a lepší několik pravidel
- Katalánština:
- aktualizováno Slovník
- přidal a lepší pravidla
- fixní falešné poplachy
- Dutch:
- přidány a vylepšené mnoho pravidel
- anglicky:
- některá nová pravidla (díky Nick Hough)
- aktualizovala Tagger a syntetizér slovníky, kterým se záležitost # 202
- nový filtr má být použit pro odpovídající partofspeech částí slov, např. V * To bude mít pouze zápasech za slovy, které začínají s 'in', a kde část poté, co "v" je adjektivum (POS tag 'JJ "). "Ne: 1" je známka pozice, tj zde první (a jediný), odpovídající je odkazoval se na .
- francouzština:
- přidal a lepší několik pravidel
- němčina:
- přidal a lepší několik pravidel
- Polish:
- přidal a vylepšené několik pravidel,
- přidal a lepší falešné přátele s angličtinou
- portugalština:
- přidány / zlepšených několik pravidel,
- španělsky:
- odstranit závislost na Hunspell, nyní používá Morfologik pro kontrolu pravopisu
- přeformátovaného soubor pravidel
- přidali další pravidla
- Tagalog:
- odstranit závislost na Hunspell, nyní používá Morfologik pro kontrolu pravopisu
- pomlčku znak ("") je oddělovač teď, když tokenizaci text
- Ruská:
- přidal a lepší pravidla
- přidal několik pravidel false přítele (rusky / anglicky)
- ukrajinština:
- mnoho nových pravidel (včetně dohody s podstatnými jmény, časové výrazy atd)
- zlepšení právního pokrytí
- Aktualizace slovníku (velké zlepšení pro vlastní jména a vokativu)
- novou značku a vládnout varovat o alternativní pravopis
- přidal slovo frekvence informace zlepšit návrhy na opravu pravopisu
- některá nová pravidla disambiguator
- Pravidlo Syntaxe:
- ... může být nyní přidán do rulegroup ovlivnit všechna pravidla této skupiny
- Máte-li vyvíjet vlastní pravidla, která nejsou součástí LT můžete nyní přidat externí = "ano" ke svým kategoriím, aby se zabránilo odkaz pravidlo community.languagetool.org od objevit se v našem samostatném GUI (odkaz nebude fungovat pravidla, která nejsou součástí hlavní distribuce LT). (Github problém # 223)
- Pokud skupina pravidlo určuje výchozí = "off", pravidla uvnitř skupiny pravidlo nemusí také specifikovat default = "na" / "off".
- API:
- Odebrané třídy a metody, které byly zastaralé, protože 2,7 nebo déle
- Embedded server:
- možnostech config soubor 'requestLimit "a" requestLimitPeriodInSeconds "lze nyní použít také pro HTTP server (nejen pro HTTPS serveru)
- Nová možnost config file "trustXForwardForHeader": tato položka nastavena na 'true', pokud spustíte server za reverzní proxy a chcete omezit požadavek pracovat na původních IP adres, který poskytuje HTTP hlavičky "Xforwardedfor", obvykle nastavuje proxy. Pokud spustíte za proxy serverem, ale nenastavíte tuto vlastnost na hodnotu true, jeden uživatel může použít všechny požadavky, aby ostatní uživatelé se také získat chybovou zprávu, protože limitu požadavku.
- Fix odezva Po režimu Termín: ... byl někdy prázdná, matoucí textovou kontrolu v WordPress
- pravidla Bitext nebyla správně vypnuta, a to i v případě, že byly specifikovány s náležitou parametrem pro server; teď je to pevná
- Opraven problém s nesprávným pozicemi pro některých pravidel bitext (problém # 218)
- GUI:
- Nové nastavení "errorColors" byla přidána do konfiguračního languagetool.cfg souboru. To může být použit k nastavení barvy pozadí chyb. Například, errorColors = typografická: # b8b8ff, styl: # ffb8b8 ukáže "typografické chyby" s modrým pozadím a "styl" chyby s červeným pozadím v horní části okna LT. "Typografické" a "styl" jsou typy, které jsou nastaveny v grammar.xml jako "typ = ...". Neexistuje žádné uživatelské rozhraní ještě konfigurovat tyto barvy. Všimněte si, že byste měli upravit pouze soubor languagetool.cfg když LT není spuštěna.
- Vnitřní:
- Oprava chyby: nebyla aktivována pravidla uvnitř skupiny pravidlo, pokud předchozí pravidlo ze stejného rulegroup používá default = "off"
- Slova nejsou ignorovány již podle pravopisu jen proto, že se vyskytují v pravidle v návrhu. Chcete-li kontrola pravopisu ignorovat slova globálně, přidejte je do hunspell / ignore.txt. Chcete-li ignorovat v závislosti na kontextu, přidejte 'ignore_spelling "pravidlo disambiguation.xml.
- Soubor 'hunspell / prohibit.txt "nyní může být použit k označení slova jako pravopisné chyby, i když kontrola pravopisu by za normálních okolností přijmout. To je užitečné pro zlepšení LanguageTool pravopisu bez čekání na upstream checker být aktualizována. Soubor "prohibit.txt" je opakem "ignore.txt", který způsobí, že pravopisu ignorovat slova.
- partofspeech Tagger pro většinu jazyků mohou být nyní rozšířena o přidávání položek do souboru org / languagetool / zdroj / XX / added.txt (XX je kód jazyka). Formát je "fullform baseform postag", tři sloupce oddělené tabulátory. To usnadňuje uživatelům (a vývojáře) prodloužit POS tagger, protože oni nepotřebují exportovat, upravovat, a znovu binární slovník pro každou změnu.
Co je nového ve verzi 2.7:
- Breton:
- přidal a lepší pravidla
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např detekuje "Gwener 28 viz Eost 2014", jako to datum není pátek.
- Katalánština:
- přidal a lepší pravidla
- fixní falešné poplachy
- Dutch:
- přidány a vylepšené mnoho pravidel
- přepne do Morfologik založené pravopisu
- -Angličtina:
- Chcete se stát součástí týmu, který vyvíjí na světě nejmocnější Open Source korektury nástroj? Hledáme udržovatele pro anglickými pravidly v LanguageTool. Viz http://wiki.languagetool.org/tasks-for-language-maintainers podrobnosti.
- Všechny anglické slovníky byly rozšířeny, aby obsahovaly slovní frekvenční třídy zlepšit návrhy pravopisu (frekvence dat je převzat z https://github.com/mozilla-b2g/gaia/tree/master/apps/keyboard/js / IME / Latinská / slovníky, jako pro jiné jazyky, které již používají tuto funkci).
- Lepší návrhy pro studenty angličtiny: nepravidelná slovesa, podstatná jména a adjektiva nyní obvykle mají lepší návrh. Například, "thinked" navrhne "Myslel", "ženách" naznačuje 'ženy'.
- Další překlepy poskytnout návrhy teď, např "Garentee" (záruky), "vděčný" (vděčný). To může způsobit pokles výkonu o ~ 10% (více o texty se spoustou neznámých slov).
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např detekuje "pondělím 7.října 2014", jako to datum není pondělí. Toto pravidlo bude fungovat pouze v případě, že detekuje formát data v použití. Zatím jsou podporovány tyto formáty: * "pondělí 7 říjnem 2014" * "pondělku 7 října 2014" * "Pondělí 07.10.2014" * "pondělku 07.10.2014" * (to funguje také s zkrácené týden dny, jako je Mo nebo Mon na pondělí)
- Esperanto:
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např detekuje "Vendredon la 28-an de AAgusto 2014", jako to datum není pátek.
- francouzština:
- aktualizováno POS tag slovník a Hunspell slovník do Dicollecte-5.2
- přidal syntezátor - pravidlo dohoda může nyní předložit návrhy pro některé chyby
- přidány / zlepšených několik pravidel,
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např detekuje "Vendredi 28/08/2014", jako to datum není pátek.
- němčina:
- Pevná vzácný NullPointerException a ArrayIndexOutOfBoundsException
- Opraveno několik falešných poplachů
- Added a lepší pravidla
- nové pravidlo, které kontroluje věty bez slovesa (ve výchozím nastavení vypnuta kvůli riziku falešných poplachů)
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např detekuje "Dienstag, 29.9.2014", jako to datum není úterý.
- Vylepšení výkonu pro kontrolu pravopisu návrhy
- Peršan:
- přidal počáteční podporu pro persky (Farsi)
- Polish:
- přidal a zlepšit některá pravidla
- nové pravidlo, které kontroluje, zda všední den odpovídá datum
- portugalština:
- přidány / zlepšených několik pravidel,
- přidala mnoho desítek složených slov
- Ruská:
- přidá nová pravidla
- opravit SourceForge požadavek funkce # 38 (zkontrolovat pro různé uvozovek)
- přidal několik pravidel false přítele (rusky / anglicky)
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např Detekuje "ÐонеÐ'еÐ"NŒÐ½Ð¸Ðº, 30 N ?? & ETH; & micro; & ETH; & frac12, N-sbquo; N ??-ETH; & plusmn, N-euro; N ?? 2014 & ETH; & sup3 ;. ", jako to datum není pondělí .
- rozšířil ruský sloučenina pravidlo s novými slovy od postag slovníku
- španělsky:
- Přidán nový POS kategorie Z (pro vysvětleny čísla, například "uno", "dos", ...)
- napsána čísla mohou nyní být detekovány a řízeny jak v disambiguation a pravidly.
- Opraveny některé nesprávné lemmata v POS slovníku.
- Přidána Hybrid Chunker-disambiguator.
- tamilština:
- Přidána počáteční podporu pro Tamil. Pokud písmo pro Tamil není správně zobrazen na vašem počítači a používáte systém Windows, možná budete muset použít práci tady kolem je popsáno: https://bugs.openjdk.java.net/browse/JDK-8008572
- ukrajinština:
- velká aktualizace pro POS slovník (opravy a nových slov)
- některé POS tag přejmenovaný konzistence; nové tagy pro zkratek a vzácných slova
- mnoho nových pravidel a opravy pro stávající pravidla
- nové pravidlo, které kontroluje, zda všední den odpovídá datum, např detekuje "& ETH; & ETH; & frac34; & ETH; & frac12; & ETH; & micro; & ETH; 'N-ETH;" & ETH; & frac34; & ETH; & ordm ;, 7 & ETH, a para; & ETH; & frac34; & ETH; & sup2; 2014 ", jako to datum není pondělí
- tokenu zlepšení výkonu normalizace
- integrace LibreOffice:
- Nenechte se zmást tím, poznámek pod čarou v LibreOffice 4.3 a později (to nám nyní poskytuje s poznámkou pozicích jako meta data, takže je můžeme ignorovat).
- API:
- Hlavní vylepšení výkonu pro použití u multi-thread, kde JLanguageTool dostane vytvořené za nit, ale jazyková objekt (například "německý"), dostane vytvořit pouze jednou. Nadzemní pro vytváření JLanguageTool by nyní měla být mnohem nižší.
- Odstranené několik tříd a metod, které byly zastaralé od verze 2.6
- Odstraněno DutchSpellerRule - použijte MorfologikDutchSpellerRule místo
- Podpis Language.getRelevantRules () se změnil
- Na JLanguageTool a MultiThreadedJLanguageTool constructors nemají deklarovat házet IOException už
- WhitespaceRule byl přejmenován na MultipleWhitespaceRule (WhitespaceRule stále existuje, ale již nepoužívá)
- Zastaralé některé metody, jejichž viditelnost bude snížena (např od veřejnosti do chráněných)
- MorfologikSpellerRule.getRuleMatch (String, int) byl přejmenován na MorfologikSpellerRule.getRuleMatches (String, int)
- RuleMatch konstruktoru nyní vyvolá výjimku, pokud toPosition není větší než fromPosition
- představil novou abstraktní třída TextLevelRule která rozšiřuje pravidlo, a který může být použit pro pravidla, které pokrývají více než jednotlivé věty.
- Příkazový řádek:
- Povolení a zakázání zvláštní pravidla současně je nyní povoleno. Za účelem testování pouze některá pravidla (zakázání všechny ostatní), který dříve bylo provedeno "--enable LIST_OF_RULES", nyní používají "--enabledonly --enable LIST_OF_RULES" (nebo "-eo -e LIST_OF_RULES").
- Embedded server:
- dvě nové volby lze nastavit v souboru vlastností, aby LanguageTool vrátit stejný formát XML jako po termínu (ATD). Tímto způsobem může být použit jako drop-in náhradu za ATD: * mode - "LanguageTool" nebo "AfterTheDeadline '* afterTheDeadlineLanguage - kód výchozí jazyk, je-li režim nastaven na" AfterTheDeadline "POZNÁMKA: mód" AfterTheDeadline "by měly být považovány experimentální pro teď.
- Nová možnost "maxCheckThreads" umožňuje nastavit maximální počet vláken, kteří pracují na žádostech paralelně. Výchozí hodnota je 10, jak to bylo.
- Interní:
- New abstraktní pravidlo, AbstractDateCheckFilter, který umožňuje zkontrolovat, jestli v týdnu a datum zápasu. Například "úterku 29.září 2014" by mohly být detekovány, jako 29.září 2014 není ve skutečnosti úterý. To používá novou experimentální RuleFilter rozhraní, které lze volat z XML s novou "filtr" prvku. "Filtr" bere tyto atributy: "třída": plně kvalifikovaný název třídy Java, který implementuje RuleFilter, např "org.languagetool.rules.de.DateCheckFilter" "args": řetězec jako "rok: 1 měsíc: 2 den: Den v týdnu 3: 4", tedy prostor oddělený seznam dvojic klíč / hodnota, kde dostane x rozhodnut Vzor je tokenu hodnota (jako v "zpráva" prvku)
- pravidlo sloučenina nyní ignoruje tokeny, které byly imunizovány v disambiguation.xml
- "filtr" akce v disambiguator se nyní používá pouze k POS značky, které odpovídají tag POS daný. Pokud se neshodují, pravidlo se nepoužije.
- Pokud rozšíření pravidel XML, jak je popsáno v http://wiki.languagetool.org/tips-and-tricks#toc2, externí pravidlo a disambiguation soubory mohou být nyní umístěn na serveru chráněné heslem zadáním URL takto: http: // uživatel: password@example.org/path/user-rules.xml
- em pomlčka ("& euro;" ") je nyní tokenizaci znak pro všechny jazyky
- Nová funkce:
- Použití jazykových modelů
- LanguageTool mohou nyní využívat ngram dat. ngram údaje jsou informace o tom, jak často se vyskytují fráze v daném jazyce. V současné době, to používá fráze o délce 3.
- data jsou využívána anglický pravidlem najít chyby homofonum, stejně jako míchání do hrubého / kurz nebo vkus / světlici. LanguageTool měla některá pravidla tohoto druhu dříve, ale nové pravidlo nyní podporuje asi 900 takových párů slova / sady.
- Údaje potřebné pro to je obrovský (7gigabajt pro angličtinu), a tudíž nejsou součástí ani LanguageTool.
- Data (pouze v angličtině prozatím) a další dokumentace je k dispozici na http://wiki.languagetool.org/finding-errors-using-big-data li>
- Používání ngrams dělá LanguageTool o něco pomalejší, když jsou data uložena na SSD.
- Pokud nejsou uloženy na SSD, může drasticky snížit výkon.
- Pomocí nové --languagemodel volby z příkazového řádku klienta aktivovat pravidlo, že používá data. Tato možnost zatím není k dispozici pro samostatný GUI.
Co je nového ve verzi 2.4.1:
- Aktualizováno Morfologik knihovnám 1.8.3 opravit pomalé návrhy v pravopisu, která postihla alespoň en-US
Co je nového ve verzi 2.4:
- Breton:
- SRX věta Tokenization
- přidán / zlepšil několik pravidel
- Opraveny některé falešné poplachy
- Chybné podněty díky přidané testy na opravách
- Katalánština:
- přidány / zlepšených několik pravidel,
- fixní falešné poplachy
- z dodatků a opravy do taggeru slovníku
- odstraněna některá slova ze syntézy slovníku (viz filterarchaic.txt)
- přidal frekvence dat do Tagger slovníku; Frekvence seznam slov pochází z projektu Gaia, s Apache License, verze 2.0 (https://github.com/mozillab2g/gaia/tree/master/keyboard/dictionaries).
- anglicky:
- přidán / zlepšil několik pravidel
- Opraveny některé falešné poplachy
- francouzština:
- přidány / zlepšených několik pravidel,
- Opraveny některé falešné poplachy
- němčina:
- přidány / zlepšených několik pravidel,
- přidal syntezátor pravidlo dohoda nyní mohou předložit návrhy pro některé chyby (ne všechny návrhy jsou správné, i když)
- Polish:
- přidán / zlepšené několik pravidel, zejména pro pomlčkou a použití přístrojové
- přidána informace o frekvenci pro kontrolu pravopisu slovník; Frekvence seznam slov pochází z projektu Gaia, s Apache License, verze 2.0 (https://github.com/mozillab2g/gaia/tree/master/keyboard/dictionaries).
- Opraveny některé falešné poplachy
- portugalština:
- přidán / vylepšené několik pravidel (to nyní zahrnuje pravidla rovnosti žen a mužů "a" / "o")
- to teď má 3400+ složená slova
- soubor JAR byl přejmenován na languagetool.jar, z dříve languagetoolstandalone.jar vyhnout se zmatku o tom, co "samostatný" v tomto kontextu znamená (GitHub vydání # 29)
- pro jazyky s mnoha pravidly (jako je francouzština nebo němčina) výkon na dlouhých textů byla zvýšena přibližně o 2030%,
- Oprava threadsafety (může způsobit zablokuje v MultiWordChunker)
- Opravena chyba, kdy se dvou bloků anotace nebyla testována ve skupinách
- Oprava: 1 a nebyla hodnocena v ...
- pevné chyba v sjednocení mechanismu, který odloží některé z odpovídajících interpretací předčasně
- přidána podpora pro kus anotace v disambiguator, a pevná jednu chybu ve filtračních tokeny s kusem anotacemi
- aktualizované Morfologik knihovny do 1.8.2 (opravy chyb, přísnější vstup Sanity kontroly, přidejte frekvence dat do slovníků)
- přidal možnost, včetně frekvence dat do taggging nebo pravopisné slovníky. Očekávaný formát frekvenčních wordlists je jeden v projektu Gaia, s Apache License, verze 2.0 (https://github.com/mozillab2g/gaia/tree/master/keyboard/dictionaries)
- nové příkazového řádku nástroje pro export a vytvořit binární slovníky:
- org.languagetool.dev.DictionaryExporter
- org.languagetool.dev.POSDictionaryBuilder
- LibreOffice / OpenOffice integrace:
- přidal řešení pro detekci nesprávné věty pro případ, že poznámka pod čarou se objevil po věty tečkou (Sourceforge bug # 191)
- samostatný GUI:
- Dialog zahájil "Více ..." položku v kontextovém menu chyby budou nyní také zobrazovat správné a nesprávné ukázkové věty
- API:
- SentenceTokenizer je nyní rozhraní, implementace byla přesunuta do RegexSentenceTokenizer, ale toto je zastaralý a SRXSentenceTokenizer by měla být použita namísto
- Některé metody z org.languagetool.tools.StringTools byly přesunuty do třídy org.languagetool.gui.Tools v projektu languagetoolguicommons
- LanguageToolListener.languageToolEventOccured () byl přejmenován na LanguageToolListener.languageToolEventOccurred ()
- org.languagetool.tools.SymbolLocator není veřejný už (neměla by mít vliv na nikoho)
- odstraněny DanishSentenceTokenizer který byl zastaralý po dobu tří let
- Rule.getCorrectExamples () a Rule.getIncorrectExamples () nevrátí null už ale prázdný seznam, pokud nejsou žádné příklady. V důsledku toho, setCorrectExamples () a setIncorrectExamples () nepřijímají null už ne.
- Rule.getId () může vrátit libovolný řetězec teď, a to nejen ASCIIonly řetězce (ve skutečnosti to byl případ předtím, protože omezení ASCIIonly nebyl nikdy vykonán a pouze zmínil v javadoc)
- languagetoolwikipedia: Volby příkazového řádku pro kontrolu a Wikipedia výpis byly zjednodušeny. Příkaz může být nyní nazýván takto: java jar languagetoolwikipedia.jar checkData l en f enwiki20130621pagesarticles.xml Zavolejte jen "Java jar languagetoolwikipedia.jar checkData", aby se zpráva o použití. Více než jeden soubor může být zadán s volbou f. Navíc se Wikipedie XML skládky, jsou podporovány CSV souborů z Tatoeba (http://tatoeba.org) nyní také, že musí být filtrován první obsahovat pouze příslušné jazyka.
Co je nového ve verzi 2.3:
- Breton:
- přidán / zlepšil několik pravidel
- fixní falešné poplachy
- aktualizováno POS slovníku z apertium (Slov r47282)
- Katalánština:
- přidal podporu pro kód jazyka ca-ES-Valencia (Valencie Katalánština), která má být použita v LibreOffice 4.2.0
- přidal jednoduché nahradit pravidlo se stovkami náhradních návrhy
- přidány / zlepšených několik pravidel,
- fixní falešné poplachy
- Číňan:
- přidal řešení pro StringIndexOutOfBoundsException (http://sourceforge.net/p/languagetool/bugs/186/)
- anglicky:
- přidal náhradní vzory pro kontrolu pravopisu, aby se návrhy lepší (nyní nabízí "učil" pro "učil")
- přidán / zlepšil několik pravidel
- francouzština:
- přidán / zlepšil několik pravidel
- fixní falešné poplachy
- aktualizováno POS tag slovník a Hunspell slovník do Dicollecte-4.12
- němčina:
- přidány / zlepšených několik pravidel,
- portugalština:
- přidán / zlepšil několik pravidel
- to teď má 3300+ složená slova
- ukrajinština:
- přidány / zlepšených několik pravidel,
- Zdrojový kód byl přesunut na GitHub: https://github.com/languagetool-org/languagetool
- LanguageTool vyžaduje Java 7 nyní
- LanguageTool využívá více vláken nyní pro kontrolu textu na moderním hardwaru, zlepšení výkonu (to má vliv na samostatnou verzi, verzi pro příkazovou řádku a rozšíření LibreOffice / OpenOffice)
- syntaxe pravidlo:
- předběžná podpora nových atributů min / max, které umožňují, aby odpovídal prvek, který se objeví daný počet opakování. Například: foo bude odpovídat nic nebo "foo", tedy "foo" je nepovinné foo bude odpovídat "foo" nebo "foo foo" foo bude odpovídat nic, "foo", nebo "foo foo" Použít max = "- 1" dovolit neomezené výskyty. Pro minutách, pouze 0 nebo 1 je podporována (1 je výchozí nastavení).
- Podpora pro OR-prohlášení. Například: interně a do běhu, zpravidla obsahující OR-prohlášení je převeden do několika pravidel, nebo bez-výkazech .
- anglicky má nyní Chunker odhalit, mimo jiné, jednotném a množném čísle podstatného jména polena. To je dokumentováno v http://wiki.languagetool.org/using-chunks
- samostatná verze:
- Samostatná verze nyní zdůrazňuje, že chyby s červenou (pravopisných chyb) nebo modrá (jiné chyby) linky (Panagiotis Minos)
- Nezapomeňte výběr jazyka pro příští Začátek
- Lepší okna a dialog umístění v nastavení multi-monitor
- vestavěný server: používá výchozí port (8081), opět v případě spuštěn bez argumentů
- aktualizováno morfologik-plynoucí knihovnu na verzi 1.7.1, aby lepší návrhy, včetně správného zacházení diakritiky a náhradních vzorů (ekvivalenty MAP a REP funkcí hunspell slovnících)
- OpenOffice integrace / LibreOffice:
- Oprava: "O" dialogové okno nefunguje v Apache OpenOffice 4.0
- Oprava: zvláštní pravidla země (jako pro britská angličtina) nefungovalo
- API:
- V třídě jazyk, který getCountryVariants () byl přejmenován na getCountries (), a nová metoda getVariant byla přidána.
- byly zastaralé Některé metody
- Některé metody byly přesunuty z třídy Nástroje (languagetool-core) k nové CommandLineTools třídy (languagetool-příkazové)
Co je nového ve verzi 2.2:
Co je nového ve verzi 2.1:
Co je nového ve verzi 2.0:
Požadavky na :
- Java 2 Standard Edition Runtime Environment
Komentáře nebyl nalezen