Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Korekta ortograficzna - ISpell, ASpell, MySpell, Hunspell

Literumado - ISpell, ASpell, MySpell, Hunspell

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

La baza perkomputila korektado de tekstoj estas tiel nomata literumado (angle. Spellchecking, germane: Rechtschreibkorrektur). La funkciado estas simpla: ĉiu vorto de teksto estas komparita kun interna listo de eblaj (korektaj) vortoj. Sed en detalo tiu tasko ne estas tre facila pro:

  1. Kolekto de eblaj vortoj. Necesa vortprovizo.
  2. Efika kaj memorŝpara reprezento de ĉiuj ebloj.
  3. Efika kaj memorŝpare serĉado de vortoj.
  4. Komputado de sugestoj. Similaj sed korektaj vortoj.
  5. Konsidero de reguloj de vortfarado de koncerna lingvo

Kutimaj solvoj de tiuj problemoj:

  1. Oni kolektas vortojn de granda tekstaro. Aldonaj vortoj estas kolektitaj dum uzo de programo.
  2. Plej ofte oni uzas tiel nomatan: Finite state machine por reprezentado en la memoro.
  3. Komputado de sugestoj estas temporaba. Ekzistas kelkaj algoritmoj por komputi similecon de vortoj. Konata estas ekzemple: Distanco de Levenshtein.
  4. Reguloj de vortfarado dependas de lingvo.

Literumado estis preskaŭ unua funkcio de Esperantilo, kiun mi programis. Mi uzis la vortprovizon de revo kaj tekstaron de bertilow. Mi volis ne nur kolekti eblajn vortojn, sed ankaŭ havi informoj pri korekta morfologio de vortoj. Ĉar vortfarado en Esperanto ebligas grandegan vortprovizon, ŝajnis al mi, ke la nur programo, kiu regas esperantan vortfaradon, povas bone solvi tiun problemon. Alia kazo estis, ke por konataj liberaj programoj de literumado ne ekzistis ebleco bone kunlabori kun programlingvo Tcl, kiun mi uzas. Por Linukso tio ne estas problemo, ĉar ĉiu linuksa sistemo havas aspell aŭ ispell. Problemo estas vindozo.

Liberaj programoj por literumado

Ekzistas kelkaj liberaj programoj por literumado. Ili estas ankaŭ uzataj por Esperanto.

  • ISpell
  • GNU ASpell
  • MySpell: Uzata de OpenOffice (ĝis eldono 2), Thunderbird kaj Firefox
  • Hunspell: Uzata de OpenOffice (de eldono 2), formato konforma al MySpell.

La plej vastan kaj ĝisdatan kolekton de vortaroj por Myspell kaj Hunsplell oni trovas sur Vortaroj de OpenOffice.

Problemoj kun literumado ĉe Esperantilo

La propra literumado en Esperantilo havas avantaĝojn super aliaj programoj, ĉar ĝi respektas esperantan vortfaradon. La programo diferencas ankaŭ du tipojn de eblaj skriberaroj: unue evidenta eraro, due ebla vorto, sed ne konata. Esperantilo enhavas ankaŭ komfortan redaktilon por vortaro. La problemoj estas teknikaj, programo ne estas tre rapida, ĉar ĝi volas trovi ekzaktan vortfaradon de ĉiu vorto, due en Tcl ne estas eble rapide komputi sugestojn por erara vorto. Efikaj algoritmoj por tio estas tre komplikaj. La alia malavantaĝo estas, ke en Esperantilo oni ĝis nun ne povis korekti tekstojn en aliaj lingvoj.

Hunspell en Esperantilo

Post longa pripenso mi decidis elekti Hunspell por interna literumilo de Esperantilo. La programo estas libera konforme al Esperantilo. Ĝi povas uzi vortarojn de OpenOffice projekto, kiuj estas ankaŭ popularaj en Mozilla projekto. La ĉefa teknika problemo estas skribi bibliotekon por uzi Hunspell de Tcl. Post 2 tagoj de programado mi sukcesis uzi Hunspell kun Esperantilo. Nun restas kompili la hunspell kun Tcl sur vindozo. Mi nun ne volas rezigni pri ĝisnuna literumilo en Esperantilo. Sed Hunspell povus plibonigi la uzeblecon de programo. Due la uzanto povos uzi aliajn vortarojn de OpenOffice-Provizo.

Vortlisto por Esperanta lingvo

La esperantaj vortlistoj por literumiloj enhavas 2 dosierojn. Unu dosiero kun finaĵo “.aff” enhavas teknikajn priskribojn kaj liston de sufiksoj. La dua doziero kun finaĵo “.dic” enhavas liston de vortoj kun priskribo pri eblaj sufiksoj. Mi analizis la sufiksojn de nuntempa vortaro por Esperanto. Ŝajnas, ke per la novaj ebloj de Hunspell, kiu povas ankaŭ kunligi kelkajn finaĵojn unu post la alia, oni povus prilabori kolekton de sufiksoj, kiuj estus pli adekvata por Esperanto.

Kluczowa komputerowa korektura tekstów jest tak zwaną korektą ortograficzną (z angielskiego. Spellchecking, po niemiecku: Rechtschreibkorrektur). Operacja jest prosta: każde słowo tekstu jest wcześniej porównywane z wewnętrznym spisem przez możliwe (korektowi) słowa. Lecz w drobiazgu to zadanie nie jest bardzo łatwe z powodu:

  1. Kolekcja możliwych słów. Konieczne słownictwo.
  2. Efektywne i {memorŝpara} reprezentowanie wszystkich możliwości.
  3. Efektywny i {memorŝpare} poszukiwanie słów.
  4. Obliczenia podszeptów. Podobne lecz korektowe słowa.
  5. Wzgląd prawideł słowotwórstwa danego języka

Zwyczajne rozwiązania tych problemów:

  1. Zbiera się słowa dużej grupy tekstów. Dodatkowe słowa są nazbierane w czasie użycia przez program.
  2. Najczęściej użytkuje się tak zwane: Zakończywszy {state} {machine} dla reprezentacji w pamięci.
  3. Obliczenia podszeptów jest {temporaba}. Istnieją kilka algorytmów aby komputować podobieństwo słów. Znany jest na przykład: Dystans Levenshtein.
  4. Prawidła słowotwórstwa zależą od języka.

Korekta ortograficzna była nieomal pierwszą funkcją Esperantilo, które programowałem. Użytkowałem słownictwo marzenia i grupę tekstów od {bertilow}. Chciałem nie jedynie zbierać możliwe słowa, lecz także mieć informacje o morfologi korektowej słów. Ponieważ słowotwórstwo w Esperanto umożliwia ogromne słownictwo, wydawało się do mnie, że jedynie program, który włada esperanckim słowotwórstwem, może dobrze rozwiązywać ten problem. Inny przypadek był, że dla znanych wolnych programów korekty ortograficznej nie istniała możliwość dobrze współdziałać z językiem programowania Tcl, którą użytkuję. Dla Linuksu to nie jest problem, ponieważ każdy system linuksowy ma {aspell} albo {ispell}. Problem jest Windowsem.

Wolne programy dla korekty ortograficznej

Istnieją kilka wolnych programów dla korekty ortograficznej. Oni są także użytkowani dla Esperanto.

  • {ISpell}
  • GNU {ASpell}
  • {MySpell}: Użytkowany od {OpenOffice} (do lini bazowej 2), Thunderbird i Firefox
  • Hunspell: Użytkowany od {OpenOffice} (od lini bazowej 2), format odpowiedni do {MySpell}.

Najbardziej rozległą i dotychczasową kolekcję słowników dla Myspell i Hunsplell znajduje się na Słownikach od {OpenOffice}.

Problemy z korektą ortograficzną przy Esperantilo

Własna korekta ortograficzna w Esperantilo ma zalety ponad innymi programami, ponieważ ono uszanuje esperanckie słowotwórstwo. Program rozróżnia także dwa typy możliwych {skriberaroj}: po pierwsze oczywista omyłka, po drugie możliwe słowo, lecz nie znany. Esperantilo mieści także wygodnego edytora tekstu dla słownika. Problemy są techniczne, program nie jest bardzo szybki, ponieważ ono chce znaleźć dokładne słowotwórstwo każdego słowa, po drugie w Tcl nie jest przypuszczalnie szybko komputować podszepty dla błędnego słowa. Efektywne algorytmy dla tego są bardzo skomplikowane. Inna wada jest, że w Esperantilo do teraz nie można było poprawiać teksty w innych językach.

Hunspell w Esperantilo

Po długim zastanowieniu decydowałem wybrać Hunspell dla wewnętrznego programu sprawdzający pisownię Esperantilo. Program jest wolny odpowiednio do Esperantilo. Ono może użytkować słowniki od {OpenOffice} projekt, które są także słynne w {Mozilla} projekcie. Główny techniczny problem jest pisać księgozbiór aby użytkować Hunspell od Tcl. Po 2 dniach programowania miałem powodzenie użytkować Hunspell z Esperantilo. Teraz zostaje zestawiać {hunspell} z Tcl na Windowsie. Teraz nie chcę zrezygnować z tymczasowego programu sprawdzający pisownię w Esperantilo. Lecz Hunspell mogłoby ulepszyć użyteczność programu. Po drugie użytkownik będzie mógł użytkować inne słowniki {OpenOffice-Provizo}.

Lista słów dla Esperanckiego języka

Esperanckie listy słów dla programów sprawdzający pisownię mieszczą 2 pliki. Jeden plik z końcówką “.{aff}” mieści techniczne opisy i spis przyrostków. Drugi {doziero} z końcówką “.{dic}” mieści spis słów z opisem o możliwych przyrostkach. Rozpatrywałem przyrostki współczesnego słownika dla Esperanto. Wydaje się, że nowymi możliwościami Hunspell, która może także powiązać kilka końcówek jeden po drugim, można by było przetwarzać kolekcję przyrostków, które byłyby odpowiedniejsze dla Esperanto.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de