Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko ĉefe la metodo por diferenci malgravaj aĵoj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj. Mi volis trovi esperantajn frazeologiojn, kiuj baziĝas sur frazpartoj. La ideo baziĝas sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn. Por tiu mi programis programon, kiu povas ordoni vortojn laŭ kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 aŭ 3 vortoj.
- np-adj: bona homo
- vp-subj: homo vivas
- vp-adv: vivi longe
- vp-obj: vidi homon
- vp-pp: kredi je
- adj-adv: maksimume rapida
- vp-pp-sub: kredi je dio
- sub-pp-sub2: ordono de patro
Mi analizis preskaŭ tutan korpuson de ESF Testaro. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn ankaŭ por aliaj celoj. Imagebla estis:
- Vortara helpo ĉe skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi “ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), ĉiusemajne (2), akurate (1), antaŭe (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)”
- Asemblo de sugestoj ĉe literuma korektado.
- Serĉado de stilaj eraroj aŭ hazardaj interŝanĝoj de vortoj.
- Aŭtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn
- Asemblo de senta karto kiel konata Wordnet
- Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo “danki” (pro (34), en (7), per (4), por (4), pri (4))
Ekzemploj por vorto: patro
np np-adj |
sankta (24), cikonia (23), kara (5), alia (4), malfeliĉa (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3) |
obj vp-obj |
havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1) |
subj vp-subj |
esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4) |
sub vp-pp-sub |
iri al (4), esti por (3), ricevi de (3), ĵuri al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2) |
sub sub-pp-sub2 |
de infano (6), de antono (2), de arne (2), de edzino (2), de maŭrico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1) |
sub2 sub-pp -sub2 |
morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2) |
Ekzemploj por vorto: patrino
np np-adj |
cikonia (25), malfeliĉa (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), malĝoja (3), mortanta (3) |
obj vp-obj |
nomi (2), rigardi (2), ŝati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1) |
subj vp-subj |
esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4) |
sub vp-pp-sub |
iri al (3), esti por (3), sendi al (3), kaŭzi al (2), proponi al (2), fari al (2), senti al (2), sidi ĉe (2), skribi al (2), aŭdigi dum (1), subskribi al (1) |
sub sub-pp-sub2 |
de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1) |
sub2 sub-pp-sub2 |
tombo de (4), brako de (3), vizaĝo de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), ĝardeno de (1), provo de (1), amo de (1) |
Ekzemploj por vorto: lingvo
np np-adj |
angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17) |
obj vp-obj |
lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6) |
subj vp-subj |
esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3) |
sub vp-pp-sub |
esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3) |
sub sub-pp-sub2 |
de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1) |
sub2 sub-pp-sub2 |
influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2) |
Ekzemploj por vorto: morti
vp vp-subj |
homo (9), patro (9), infano (7), birdo (3) |
vp vp-adv |
poste (7), miskomprene (4), multe (4), subite (4) |
vp vp-obj |
antimo (1), deziro (1), loko (1), sangocirkulado (1) |
vp vp-pp |
en (45), pro (32), de (22), antaŭ (6) |
vp vp-pp-sub |
de malsato (7), pro malsato (4), antaŭ jaro (3), da homo (3) |
Ekzemploj por vorto: stulta
adj np-adj |
demando (2), rakonto (1), infanaĵo (1), knabo (1) |
Frekventeca vortaro de frazpartoj iĝos parto de Esperantilo
Ĉar mi konstatis tiun ilon utila, tial la ilo iĝos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe kaŭzitaj de ne plene korekta sintaksa analizo.
|
Już długo zajmuję o językowej statystyce. Dla mnie statystyka jest w językoznawstwie głównie metodą aby różnić się nieznaczne rzeczy od ważna. Dla Esperanto obowiązują takie same statystyczne zasady jak dla naturalnych języków. Pierwsze zadanie było {asemblo} {frekventeca} spisa słów. Spis jest bardzo użyteczny, kiedy chcemy {racionale} poszerzyć słownik tłumaczeniowy. Naturalnie dołącza się po pierwsze słowa, które są najczęściej użytkowane. Chciałem znaleźć esperanckie frazeologie, które opierają się na częściach zdania. Pomysł opiera się na tak zwany (po niemiecku: Kookurenz, {Kollokation}, {engle}: {Collocation}). Aby osiągnąć lepsze wyniki nie użytkowałem prostego modelu sąsiedniego pojawienia się, lecz rozpatrywałem syntaktyczne struktury. Dla tego programowałem program, który może polecać słowa według wspólne pojawienie się w pozostałej syntaktycznej strukturze. {asemblis} bazę danych z kolejnymi stosunkami pomiędzy 2 albo 3 słowami.
- {np-adj}: dobry człowiek
- {vp-subj}: człowiek żyje
- {vp-adv}: żyć długo
- {vp-obj}: widzieć człowieka
- {vp-pp}: wierzyć na
- {adj-adv}: najwyżej szybki
- {vp-pp-sub}: wierzyć w Boga
- {sub-pp-sub2}: rozkaz ojca
Rozpatrywałem nieomal cały korpus ESF grupa testów. Baza danych wynikowa (1.3 MB) zdarzyła się bardzo wieloinformyjąca. Po pierwsze chciałem użytkować te daty dla ulepszenia słowników tłumaczeniowych i budowy słownika części zdania, lecz można by było użytkować te informacje także dla innych celów. Wyobrażalny było:
- {Vortara} pomoc przy pisywaniu tekstów. Można by było na przykład bardzo szybko znaleźć, które przysłówki można by było użytkować z czasownikiem pisać “często (5), od nowa (3), po prostu (3), ładnie (2), nawzajem (2), regularnie (2), co tydzień (2), punktualnie (1), przedtem (1), dobrze (1), dwumanierycznie (1), na razie (1), przypuszczalnie (1), właściwie (1), za granicą (1), na przykład (1), faktycznie (1), przychylnie (1), w końcu (1), wcześnie (1), po niemiecku (1), w domu (1)”
- {Asemblo} podszeptów przy {literuma} korekturze.
- Poszukiwanie omyłek stylowych albo przygodnych wymian słów.
- Automatyczny {asemblo} tłumaczeniowych słowników. Można by było {asembli} podobną bazę danych dla narodowego języka i porównywać wyniki
- {Asemblo} uczyciowego biletu jak znany Wordnet
- Wywodzenie gramatycznych prawideł. Na przykład, których przyimki często użytkuje się z czasownikiem “dziękować” (z powodu (34), w (7), (4), dla (4), o (4))
Przykłady dla słowa: ojciec
{np} {np-adj} |
święty (24), bociani (23), drogi (5), inny (4), nieszczęśliwy (4), własny (4), dobry (3), {cia} (3), stary (3), świętobliwy (3), taki samy (3) |
{obj} {vp-obj} |
mieć (11), kochać (7), zapytać (4), znaleźć (3), patrzeć (2), być podobne (2), widzieć (2), odwiedzić (2), obawiać się (2), znać (1), zobaczyć (1) |
{subj} {vp-subj} |
być (65), powiedzieć (29), przyjść (12), zemrzeć (9), zrobić (8), mieć (8), móc (7), dać (5), patrzeć (5), opowiadać (4), spać (4) |
pod {vp-pp-sub} |
iść do (4), być dla (3), otrzymywać od (3), ślubować do (2), zrobić dla (2), stawać się do (2), obiecać do (2), być od (2), być z (2), dziedziczyć od (2), pisać do (2) |
pod {sub-pp-sub2} |
od dziecka (6), od Antonu (2), od {arne} (2), od żony (2), od {maŭrico} (2), od. (1), od przyjaciółki (1), od Andrzeju (1), od {anjo} (1), od flejtucha (1), od Ferdynantu (1) |
sub2 sub-pp - {sub2} |
zgon od (6), pałac od (5), grób od (5), dom od (4), wola od (3), przyjazd od (3), nazwa od (2), rozkaz od (2), zamek od (2), szyja od (2), serce od (2) |
Przykłady dla słowa: matka
{np} {np-adj} |
bociani (25), nieszczęśliwy (9), młody (6), drogi (6), {pasera} (6), własny (6), wielebny (6), inny (4), stary (4), smutny (3), umierający (3) |
{obj} {vp-obj} |
nazwać (2), patrzeć (2), lubić (2), zgubić (2), zapytać (2), mieć (2), pomóc (2), znać (1), zobaczyć (1), wyobrażać sobie (1), zapomnieć (1) |
{subj} {vp-subj} |
być (38), powiedzieć (32), opowiadać (7), siedzieć (7), przyjść (6), zrobić (6), patrzeć (6), otrzymywać (6), móc (5), zacząć (4), musieć (4) |
pod {vp-pp-sub} |
iść do (3), być dla (3), przesyłać do (3), spowodować do (2), proponować do (2), zrobić do (2), czuć do (2), siedzieć przy (2), pisać do (2), rozlegać się gdy (1), podpisać do (1) |
pod {sub-pp-sub2} |
od {arne} (8), od syna (4), od janu (4), od wiatru (4), od wartościowości (3), od {gastono} (2), od dziecka (2), od dziewczyny (2), od {matildo} (2), od przyjaciółki (1), od {emil} (1) |
{sub2} {sub-pp-sub2} |
grób od (4), ramię od (3), twarz od (2), pochowanie od (2), serce od (2), ten od (2), biust od (2), zgon od (2), ogród od (1), próba od (1), miłość od (1) |
Przykłady dla słowa: język
{np} {np-adj} |
angielski (49), inny (43), obcy (30), niemiecki (23), międzynarodowy (20), narodowy (17) |
{obj} {vp-obj} |
uczyć się (24), mówić (10), użytkować (9), rozumieć (8), użytkować (7), władać (6) |
{subj} {vp-subj} |
być (51), mieć (7), móc (6), musieć (5), nazwać (3), pozostać (3) |
pod {vp-pp-sub} |
być w (19), być z (4), istnieć w (4), mieć w (4), mówić w (4), pojawić się w (3) |
pod {sub-pp-sub2} |
od wrony siwa (2), od zjednoczenia (2), od miłości (1), od armi (1), od zwierza (1), od pytania (1) |
{sub2} {sub-pp-sub2} |
wpływ od (6), zagajenie od (5), ewolucja od (3), wybór od (3), większość od (3), nazwa od (2) |
Przykłady dla słowa: zemrzeć
{vp} {vp-subj} |
człowiek (9), ojciec (9), dziecko (7), ptak (3) |
{vp} {vp-adv} |
potem (7), {miskomprene} (4), wiele (4), nagle (4) |
{vp} {vp-obj} |
{antimo} (1), życzenie (1), miejsce (1), krwiobieg (1) |
{vp} {vp-pp} |
w (45), z powodu (32), od (22), przed (6) |
{vp} {vp-pp-sub} |
od głodu (7), z powodu głodu (4), przed rokiem (3), człowieka (3) |
Przykłady dla słowa: tępy
{adj} {np-adj} |
pytanie (2), opowiadanie (1), dziecinada (1), chłopak (1) |
{Frekventeca} słownik części zdania stanie się częścią Esperantilo
Ponieważ stwierdzałem ten przyrząd użyteczny, dlatego przyrząd stanie się częścią przyszłej lini bazowej programu. Kilku bardzo osobliwymi wynikami jest z pewnością spowodowane przez nie pełno korektową syntaktyczną analizę.
|