Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

{Frekvenca} statystyka części zdania

Frekvenca statistiko de frazpartoj

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko ĉefe la metodo por diferenci malgravaj aĵoj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj. Mi volis trovi esperantajn frazeologiojn, kiuj baziĝas sur frazpartoj. La ideo baziĝas sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn. Por tiu mi programis programon, kiu povas ordoni vortojn laŭ kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 aŭ 3 vortoj.

  • np-adj: bona homo
  • vp-subj: homo vivas
  • vp-adv: vivi longe
  • vp-obj: vidi homon
  • vp-pp: kredi je
  • adj-adv: maksimume rapida
  • vp-pp-sub: kredi je dio
  • sub-pp-sub2: ordono de patro

Mi analizis preskaŭ tutan korpuson de ESF Testaro. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn ankaŭ por aliaj celoj. Imagebla estis:

  • Vortara helpo ĉe skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi “ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), ĉiusemajne (2), akurate (1), antaŭe (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)”
  • Asemblo de sugestoj ĉe literuma korektado.
  • Serĉado de stilaj eraroj aŭ hazardaj interŝanĝoj de vortoj.
  • Aŭtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn
  • Asemblo de senta karto kiel konata Wordnet
  • Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo “danki” (pro (34), en (7), per (4), por (4), pri (4))

Ekzemploj por vorto: patro

np np-adj sankta (24), cikonia (23), kara (5), alia (4), malfeliĉa (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3)
obj vp-obj havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1)
subj vp-subj esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4)
sub vp-pp-sub iri al (4), esti por (3), ricevi de (3), ĵuri al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2)
sub sub-pp-sub2 de infano (6), de antono (2), de arne (2), de edzino (2), de maŭrico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1)
sub2 sub-pp -sub2 morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2)

Ekzemploj por vorto: patrino

np np-adj cikonia (25), malfeliĉa (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), malĝoja (3), mortanta (3)
obj vp-obj nomi (2), rigardi (2), ŝati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1)
subj vp-subj esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4)
sub vp-pp-sub iri al (3), esti por (3), sendi al (3), kaŭzi al (2), proponi al (2), fari al (2), senti al (2), sidi ĉe (2), skribi al (2), aŭdigi dum (1), subskribi al (1)
sub sub-pp-sub2 de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1)
sub2 sub-pp-sub2 tombo de (4), brako de (3), vizaĝo de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), ĝardeno de (1), provo de (1), amo de (1)

Ekzemploj por vorto: lingvo

np np-adj angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17)
obj vp-obj lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6)
subj vp-subj esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3)
sub vp-pp-sub esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3)
sub sub-pp-sub2 de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1)
sub2 sub-pp-sub2 influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2)

Ekzemploj por vorto: morti

vp vp-subj homo (9), patro (9), infano (7), birdo (3)
vp vp-adv poste (7), miskomprene (4), multe (4), subite (4)
vp vp-obj antimo (1), deziro (1), loko (1), sangocirkulado (1)
vp vp-pp en (45), pro (32), de (22), antaŭ (6)
vp vp-pp-sub de malsato (7), pro malsato (4), antaŭ jaro (3), da homo (3)

Ekzemploj por vorto: stulta

adj np-adj demando (2), rakonto (1), infanaĵo (1), knabo (1)

Frekventeca vortaro de frazpartoj iĝos parto de Esperantilo

Ĉar mi konstatis tiun ilon utila, tial la ilo iĝos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe kaŭzitaj de ne plene korekta sintaksa analizo.

Już długo zajmuję o językowej statystyce. Dla mnie statystyka jest w językoznawstwie głównie metodą aby różnić się nieznaczne rzeczy od ważna. Dla Esperanto obowiązują takie same statystyczne zasady jak dla naturalnych języków. Pierwsze zadanie było {asemblo} {frekventeca} spisa słów. Spis jest bardzo użyteczny, kiedy chcemy {racionale} poszerzyć słownik tłumaczeniowy. Naturalnie dołącza się po pierwsze słowa, które są najczęściej użytkowane. Chciałem znaleźć esperanckie frazeologie, które opierają się na częściach zdania. Pomysł opiera się na tak zwany (po niemiecku: Kookurenz, {Kollokation}, {engle}: {Collocation}). Aby osiągnąć lepsze wyniki nie użytkowałem prostego modelu sąsiedniego pojawienia się, lecz rozpatrywałem syntaktyczne struktury. Dla tego programowałem program, który może polecać słowa według wspólne pojawienie się w pozostałej syntaktycznej strukturze. {asemblis} bazę danych z kolejnymi stosunkami pomiędzy 2 albo 3 słowami.

  • {np-adj}: dobry człowiek
  • {vp-subj}: człowiek żyje
  • {vp-adv}: żyć długo
  • {vp-obj}: widzieć człowieka
  • {vp-pp}: wierzyć na
  • {adj-adv}: najwyżej szybki
  • {vp-pp-sub}: wierzyć w Boga
  • {sub-pp-sub2}: rozkaz ojca

Rozpatrywałem nieomal cały korpus ESF grupa testów. Baza danych wynikowa (1.3 MB) zdarzyła się bardzo wieloinformyjąca. Po pierwsze chciałem użytkować te daty dla ulepszenia słowników tłumaczeniowych i budowy słownika części zdania, lecz można by było użytkować te informacje także dla innych celów. Wyobrażalny było:

  • {Vortara} pomoc przy pisywaniu tekstów. Można by było na przykład bardzo szybko znaleźć, które przysłówki można by było użytkować z czasownikiem pisać “często (5), od nowa (3), po prostu (3), ładnie (2), nawzajem (2), regularnie (2), co tydzień (2), punktualnie (1), przedtem (1), dobrze (1), dwumanierycznie (1), na razie (1), przypuszczalnie (1), właściwie (1), za granicą (1), na przykład (1), faktycznie (1), przychylnie (1), w końcu (1), wcześnie (1), po niemiecku (1), w domu (1)”
  • {Asemblo} podszeptów przy {literuma} korekturze.
  • Poszukiwanie omyłek stylowych albo przygodnych wymian słów.
  • Automatyczny {asemblo} tłumaczeniowych słowników. Można by było {asembli} podobną bazę danych dla narodowego języka i porównywać wyniki
  • {Asemblo} uczyciowego biletu jak znany Wordnet
  • Wywodzenie gramatycznych prawideł. Na przykład, których przyimki często użytkuje się z czasownikiem “dziękować” (z powodu (34), w (7), (4), dla (4), o (4))

Przykłady dla słowa: ojciec

{np} {np-adj} święty (24), bociani (23), drogi (5), inny (4), nieszczęśliwy (4), własny (4), dobry (3), {cia} (3), stary (3), świętobliwy (3), taki samy (3)
{obj} {vp-obj} mieć (11), kochać (7), zapytać (4), znaleźć (3), patrzeć (2), być podobne (2), widzieć (2), odwiedzić (2), obawiać się (2), znać (1), zobaczyć (1)
{subj} {vp-subj} być (65), powiedzieć (29), przyjść (12), zemrzeć (9), zrobić (8), mieć (8), móc (7), dać (5), patrzeć (5), opowiadać (4), spać (4)
pod {vp-pp-sub} iść do (4), być dla (3), otrzymywać od (3), ślubować do (2), zrobić dla (2), stawać się do (2), obiecać do (2), być od (2), być z (2), dziedziczyć od (2), pisać do (2)
pod {sub-pp-sub2} od dziecka (6), od Antonu (2), od {arne} (2), od żony (2), od {maŭrico} (2), od. (1), od przyjaciółki (1), od Andrzeju (1), od {anjo} (1), od flejtucha (1), od Ferdynantu (1)
sub2 sub-pp - {sub2} zgon od (6), pałac od (5), grób od (5), dom od (4), wola od (3), przyjazd od (3), nazwa od (2), rozkaz od (2), zamek od (2), szyja od (2), serce od (2)

Przykłady dla słowa: matka

{np} {np-adj} bociani (25), nieszczęśliwy (9), młody (6), drogi (6), {pasera} (6), własny (6), wielebny (6), inny (4), stary (4), smutny (3), umierający (3)
{obj} {vp-obj} nazwać (2), patrzeć (2), lubić (2), zgubić (2), zapytać (2), mieć (2), pomóc (2), znać (1), zobaczyć (1), wyobrażać sobie (1), zapomnieć (1)
{subj} {vp-subj} być (38), powiedzieć (32), opowiadać (7), siedzieć (7), przyjść (6), zrobić (6), patrzeć (6), otrzymywać (6), móc (5), zacząć (4), musieć (4)
pod {vp-pp-sub} iść do (3), być dla (3), przesyłać do (3), spowodować do (2), proponować do (2), zrobić do (2), czuć do (2), siedzieć przy (2), pisać do (2), rozlegać się gdy (1), podpisać do (1)
pod {sub-pp-sub2} od {arne} (8), od syna (4), od janu (4), od wiatru (4), od wartościowości (3), od {gastono} (2), od dziecka (2), od dziewczyny (2), od {matildo} (2), od przyjaciółki (1), od {emil} (1)
{sub2} {sub-pp-sub2} grób od (4), ramię od (3), twarz od (2), pochowanie od (2), serce od (2), ten od (2), biust od (2), zgon od (2), ogród od (1), próba od (1), miłość od (1)

Przykłady dla słowa: język

{np} {np-adj} angielski (49), inny (43), obcy (30), niemiecki (23), międzynarodowy (20), narodowy (17)
{obj} {vp-obj} uczyć się (24), mówić (10), użytkować (9), rozumieć (8), użytkować (7), władać (6)
{subj} {vp-subj} być (51), mieć (7), móc (6), musieć (5), nazwać (3), pozostać (3)
pod {vp-pp-sub} być w (19), być z (4), istnieć w (4), mieć w (4), mówić w (4), pojawić się w (3)
pod {sub-pp-sub2} od wrony siwa (2), od zjednoczenia (2), od miłości (1), od armi (1), od zwierza (1), od pytania (1)
{sub2} {sub-pp-sub2} wpływ od (6), zagajenie od (5), ewolucja od (3), wybór od (3), większość od (3), nazwa od (2)

Przykłady dla słowa: zemrzeć

{vp} {vp-subj} człowiek (9), ojciec (9), dziecko (7), ptak (3)
{vp} {vp-adv} potem (7), {miskomprene} (4), wiele (4), nagle (4)
{vp} {vp-obj} {antimo} (1), życzenie (1), miejsce (1), krwiobieg (1)
{vp} {vp-pp} w (45), z powodu (32), od (22), przed (6)
{vp} {vp-pp-sub} od głodu (7), z powodu głodu (4), przed rokiem (3), człowieka (3)

Przykłady dla słowa: tępy

{adj} {np-adj} pytanie (2), opowiadanie (1), dziecinada (1), chłopak (1)

{Frekventeca} słownik części zdania stanie się częścią Esperantilo

Ponieważ stwierdzałem ten przyrząd użyteczny, dlatego przyrząd stanie się częścią przyszłej lini bazowej programu. Kilku bardzo osobliwymi wynikami jest z pewnością spowodowane przez nie pełno korektową syntaktyczną analizę.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de