Orignał w języku Esperanto | Maszynowe tłumaczenie na język polski |
---|---|
La plej bezonata maŝina tradukado estas la tradukado inter iu nacia lingvo kaj angla lingvo. Bedaŭrinde la angla lingvo estas tre komplika lingvo por sintaksa analizo. Aliflanke tiu lingvo estas la plej bone esplorita lingvo en komputila lingvistiko. Antaŭ kelkaj monatoj mi eksperimentis pri maŝina tradukado de pola lingvo. Tiu tradukado nuntempe estas tute taŭga. Mi pensis ankaŭ pri maŝina tradukado de angla lingvo. Por tiu tasko la plej grava estas bona sintaksa analizo.
Tiu analizilo estas ankaŭ programita per programa lingvo C. Tiun lingvon oni povas tre facile kunligi kun Tcl. Oni ja prave diras, ke Tcl estas la gluteno por programoj skribitaj en C. Mi devis nur programi mallongan interfacon inter Tcl kaj C. Tio estis farita en unu tago. Nuntempe fakte la programa lingvo C estas la plej universala programa lingvo, kiu rulas sur ĉiu komputilo sen ĝenaj premisoj. Tion oni ne povas diri pri la nuntempe populara programa lingvo “Javo”, kiu ĉiam faras problemojn, uzas tro da memoro kaj estas katastrofe malrapida. Mi testis iomete la analizilon. Unue la analizilo rezultas ne sintaksajn arbojn sed la aron de ligiloj. Oni tamen povas facile konstrui de tiuj informacioj la sintaksan arbon. La analizilo povas ankaŭ trovi la gramatikan kategorion por ĉiu vorto. Tiu estas tre grava ĉe angla lingvo, ĉar tio estas en tiu lingvo tre ambigua afero. Kelkaj ekzemploj: I read a book +---Os---+ +-Sp*i+ +-Ds-+ | | | | I.p read.v a book.n I have written the computer program +-----------Os-----------+ | +--------Ds-------+ +-Sp*i+---PP--+ | +----AN---+ | | | | | | I.p have.v written.v the computer.n program.n
Do nun Esperantilo en eldono 0.97 tradukas tiujn du ekzemplajn frazojn. Ekzistas ankaŭ multaj aferoj, kiujn oni povas plibonigi. La plej grava afero estas la tradukado de ambiguaj anglaj vortetoj kiel “there, this, that, by, to, too, …”. Ofte oni devas nur analizi la legilojn por trovi la necesan tradukon. +--Ds-+--Ss-+--Pv--+--MVp-+-J+ | | | | | | the book.n is.v written.v by me +---Js---+ +-Ss+-Pp+ +--Ds-+ | | | | | he is.v by the table.n La laboro ne estas facila. Ekzistas multega nombro de eblaj nomoj por legiloj. La dokumentaro de “link parser” ne estas aktuala kaj kompleta. Do oni precipe devas simple testi multajn frazojn. La programo ne estas ŝajne plu evoluigita. La lasta eldono devenas de jaro 2005. Jam kun tiu eldono mi rimarkis, ke la kvalito de tradukoj estas pli bona ol la kvalito de aliaj Por plibonigi la kvaliton la plej grava estus la plivastigo de vortaro. Do multa laboro estas ankoraŭ farinda. Kiel kutime mi iom post iom esperas plibonigi la tradukadon. Bedaŭrinde mia kono de angla lingvo ne estas tre bona. Mi delonge lernas tiun lingvon, sed ĝis nun havas problemojn. Ofte mi komprenas ĉiun unuopan vorton en la frazo, sed la tuta frazo estas por mi sensenca. Mi supozas, ke por samaj kialoj la konstruo de sintaksa analizilo por angla lingvo estas tiel malfacila. |
Najpotrzebniejsze tłumaczenie maszynowe jest tłumaczeniem pomiędzy jakimś narodowym językiem i językiem angielskim. Niestety język angielski jest bardzo skomplikowanym językiem dla syntaktycznej analizy. Skądinąd tym językiem jest najlepiej wybadany język w językoznawstwie komputerowym. Przed kilkoma miesiącami zrobiłem doświadczenia o tłumaczeniu maszynowym polskiego języka. To tłumaczenie obecnie jest całkiem zdatne. Myślałem także o tłumaczeniu maszynowym angielskiego języka. Dla tego zadania najważniejszego jest dobra syntaktyczna analiza.
Ten analizator jest także wcześniej programowany programowym językiem C. Ten język można bardzo lekko powiązać z Tcl. Wszakże słusznie mówi się, że Tcl jest glutenem dla programów napisanych w C. Musiałem jedynie programować krótki interfejs pomiędzy Tcl i C. To zostało zrobione w jednym dniu. Obecnie faktycznie język programowy C jest najpowszechniejszym językiem programowym, który toczy na każdym komputerze bez żenujących przesłanek. Tego nie można powiedzieć o obecnie słynny język programowy “{Javo}”, który zawsze robi problemy, użytkuje się zbyt pamięci i jest się katastroficznie wolne. Testowałem troszeczkę analizatora. Po pierwsze analizator wynika nie syntaktyczne drzewa lecz grupę linków. Jednak można lekko budować od tych {informacioj} syntaktyczne drzewo. Analizator może także znaleźć gramatyczną kategorią dla każdego słowa. Ten jest bardzo ważny przy języku angielskim, ponieważ to jest w tym języku bardzo dwuznaczna sprawa. Kilka przykładów: I read a book +---Os---+ +-Sp*i+ +-Ds-+ | | | | I.p read.v a book.n I have written the computer program +-----------Os-----------+ | +--------Ds-------+ +-Sp*i+---PP--+ | +----AN---+ | | | | | | I.p have.v written.v the computer.n program.n
Więc teraz Esperantilo w wydaniu 0.97 tłumaczy te dwa przykładowe zdania. Istnieją także liczne sprawy, które można ulepszyć. Najważniejsza sprawa jest tłumaczeniem dwuznacznych angielskich słówk jak “{there}, {this}, {that}, {by}, {to}, {too}, …”. Często trzeba jedynie rozpatrywać czytniki aby znaleźć konieczne tłumaczenie. +--Ds-+--Ss-+--Pv--+--MVp-+-J+ | | | | | | the book.n is.v written.v by me +---Js---+ +-Ss+-Pp+ +--Ds-+ | | | | | he is.v by the table.n Praca nie jest łatwa. Istnieje wieloliczna liczba możliwych nazw dla czytników. Dokumentacja od “{link} {parser}” nie jest aktualna i kompletna. Więc przede wszystkim trzeba po prostu testować liczne zdania. Program nie jest na pozór dalej {evoluigita}. Ostatnie wydanie pochodzi z roku 2005. Już z tym wydaniem zauważyłem, że jakość tłumaczeń jest lepsza aniżeli jakość innych Aby ulepszyć jakość najważniejsze byłoby poszerzenie słownika. Więc liczna praca jest jeszcze godna postępku. Jak zazwyczaj krok po kroku mam nadzieję ulepszyć tłumaczenie. Niestety moja wiedza angielskiego języka nie jest bardzo dobra. Od dawna uczę się tego języka, lecz do teraz mam problemy. Często rozumiem każde pojedyncze słowo we zdaniu, lecz całe zdanie jest dla mnie absurdalne. Przypuszczam, że dla takich samych motywów budowa syntaktycznego analizatora dla języka angielskiego jest tak trudna. |