[i18n-no] Fritt tilgjengelig norsk synonymordbok på trappene

Jeg lovet å sende deg en mail med info om synonymordboken som er under utarbeidelse, slik at du kunne vurdere om dette bør nevnes i LINUXmagasinet.

Se URL:https://lister.ping.uio.no/pipermail/lister.ping.uio.no/i18n-no/2005-A ugust/004101.html for den spede begynnelse, og tråden som starter på URL:https://lister.ping.uio.no/pipermail/lister.ping.uio.no/i18n-no/2005-A ugust/004124.html.

Cc til oversetterlisten der dette ble diskutert, i tilfelle noen der har info som bør med på trykk.

Vennlig hilsen,

Har et spørsmål ang. formatet på lista. Ser at det blir veldig mange dobbeltoppføringer, f.eks:

hefte; bok; magasin; blad blad; magasin; hefte magasin; blad; hefte

Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Et annet alternativ er vel å lage en database, men det er vel en større jobb? (For da kan man vel bare lenke de ulike oppføringene sammen, dermed slippe dobbeltoppføringer).

Mvh Axel

Petter Reinholdtsen

12:55 p.m.

[Axel Bojer]

...

Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Det er helt sikkert mulig, men jeg er ikke overbevist om at det er hensiktsmessig. Årsaken til at det er gjort er at scriptet som lager OOo-datafilene klager hvis oppføringer ikke gjelder begge veier.

...

Et annet alternativ er vel å lage en database, men det er vel en større jobb? (For da kan man vel bare lenke de ulike oppføringene sammen, dermed slippe dobbeltoppføringer).

Her var vel noen i gang med å fikse det, basert på eksisterende prosjekt. Har ikke hørt noe nytt på en stund, så jeg vet ikke hvor langt dette er kommet.

Axel Bojer

1:01 p.m.

fredag 26. august 2005, 12:55, skrev Petter Reinholdtsen:

...

[Axel Bojer]

...
Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Det er helt sikkert mulig, men jeg er ikke overbevist om at det er hensiktsmessig. Årsaken til at det er gjort er at scriptet som lager OOo-datafilene klager hvis oppføringer ikke gjelder begge veier.

Jo, men om man lager et script som lager alle dobbeltoppføringene _før_ man lar OOo.skriptet får det, så er vel alt ok? Det skriptet kunne vel kjørt på tjeneren som en cron-jobb tom... (Et slikt skript må vel være så lett å lage at selv jeg ville greid det ville jeg tro :-)

...

...
Et annet alternativ er vel å lage en database, men det er vel en større jobb? (For da kan man vel bare lenke de ulike oppføringene sammen, dermed slippe dobbeltoppføringer).

Her var vel noen i gang med å fikse det, basert på eksisterende prosjekt. Har ikke hørt noe nytt på en stund, så jeg vet ikke hvor langt dette er kommet.

Nei. Jeg sendte et spørsmål avgårde til den som meldte seg om hvor langt det er kommet :-)

-Axel

Axel Bojer

1:15 p.m.

fredag 26. august 2005, 13:01, skrev Axel Bojer:

...

fredag 26. august 2005, 12:55, skrev Petter Reinholdtsen:

...
[Axel Bojer]

...
Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Det er helt sikkert mulig, men jeg er ikke overbevist om at det er hensiktsmessig. Årsaken til at det er gjort er at scriptet som lager OOo-datafilene klager hvis oppføringer ikke gjelder begge veier.

Jo, men om man lager et script som lager alle dobbeltoppføringene _før_ man lar OOo.skriptet får det, så er vel alt ok? Det skriptet kunne vel kjørt på tjeneren som en cron-jobb tom... (Et slikt skript må vel være så lett å lage at selv jeg ville greid det ville jeg tro :-)

Et annen sak er, så lenge vi holder oss til selve tekstfila, hvilken rekkefølge vi vil ha. thesaurus-README.txt kunne kanskje passe for å angi det?

Forslag: 1. Alle oppføringer med samme stikkord plasseres etter hverandre, alfabetisk. 2. De enkelte synonymene på hver linje settes også alfabetisk 3. Komplekser med stikkord for hver av synonymene settes i forhold til hverandre ut fra det ordet som står først i alfabetet.

Eksempel: blad; magasin; hefte; tidsskrift; utgivelse; lesestoff bok; hefte; utgivelse; lesestoff hefte; bok; magasin; blad; lesestoff lesestoff; bok; hefte; blad; tidsskrift; magasin magasin; blad; hefte; tidsskrift; utgivelse; lesestoff tidsskrift; hefte; blad; utgivelse; magasin; lesestoff utgivelse; bok; hefte; blad; tidsskrift; magasin; lesestoff stol; sete sete; stol

1. Blad - bok - hefte - lesestoff - magasin - tidsskrift - utgivelse -> Alfabetisk rekkefølge loddrett 2. blad; hefte; lesestoff; magasin; tidsskrift; utgivelse -> Alfabetisk rekkefølge vannrett, bortsett fra første ord, av naturlige årsaker :-) 3. Selv om «utgivelse» og «tidsskrift» kommer etter «stol» og «sete», så står disse først fordi «blad» kommer før «stol».

Men på den annen side: Vi ser altså at dette blir meget komplekst og uoversiktlig med mere enn 5 oppføringer :-) Jeg tror vi vil tape mye tid på å organisere dette bare for å passe på at alle ordene er oppført rett, og allikevel gjøre feil. Om det er mulig ville det vært fint om noen med kjennskap til databaser osv. kunne satt opp en alternativ måte før vi legger alt for mye jobb ned i slike detaljer :-)

Mvh Axel

Axel Bojer

1:23 p.m.

fredag 26. august 2005, 13:15, skrev Axel Bojer:

...

fredag 26. august 2005, 13:01, skrev Axel Bojer:

...
fredag 26. august 2005, 12:55, skrev Petter Reinholdtsen:

...
[Axel Bojer]

...
Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Det er helt sikkert mulig, men jeg er ikke overbevist om at det er hensiktsmessig. Årsaken til at det er gjort er at scriptet som lager OOo-datafilene klager hvis oppføringer ikke gjelder begge veier.

Jo, men om man lager et script som lager alle dobbeltoppføringene _før_ man lar OOo.skriptet får det, så er vel alt ok? Det skriptet kunne vel kjørt på tjeneren som en cron-jobb tom... (Et slikt skript må vel være så lett å lage at selv jeg ville greid det ville jeg tro :-)

Et annen sak er, så lenge vi holder oss til selve tekstfila, hvilken rekkefølge vi vil ha. thesaurus-README.txt kunne kanskje passe for å angi det?

... og en ting jeg glemte å nevne: Hva med oppføringen av tvetydigheter, f.eks:

CD; plate; LP; EP; singel plate; CD; LP; EP; singel LP; plate EP; plate singel; plate; CD; grus

Grus hører bare hjemme i den siste rekka, men gir også opphav til ei ny rekke: grus; pukk; stein; singel stein; grus; pukk; singel osv.

I en tekstfil må også slike ting ordnes, hvis ikke vil vi raskt miste oversikten :-(

Mvh Axel

Axel Bojer

2:46 p.m.

fredag 26. august 2005, 13:23, skrev Axel Bojer:

...

fredag 26. august 2005, 13:15, skrev Axel Bojer:

...
fredag 26. august 2005, 13:01, skrev Axel Bojer:

...
fredag 26. august 2005, 12:55, skrev Petter Reinholdtsen:

...
[Axel Bojer]

...
Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Det er helt sikkert mulig, men jeg er ikke overbevist om at det er hensiktsmessig. Årsaken til at det er gjort er at scriptet som lager OOo-datafilene klager hvis oppføringer ikke gjelder begge veier.

Jo, men om man lager et script som lager alle dobbeltoppføringene _før_ man lar OOo.skriptet får det, så er vel alt ok? Det skriptet kunne vel kjørt på tjeneren som en cron-jobb tom... (Et slikt skript må vel være så lett å lage at selv jeg ville greid det ville jeg tro :-)

Et annen sak er, så lenge vi holder oss til selve tekstfila, hvilken rekkefølge vi vil ha. thesaurus-README.txt kunne kanskje passe for å angi det?

Og jeg la mekre til enda et problem: Hva med linjer på over 72 tegn? Eksempel:

diger; enorm; kjempemessig; kolossal; omfangsrik; omfattende; overdimensjonert; rommelig; ruvende; stor; svær; uhyrlig enorm; diger; kjempemessig; kolossal; omfangsrik; omfattende; overdimensjonert; rommelig; ruvende; stor; svær; uhyrlig

Jeg valgte å ikke dele linjene, for da ville det vel blitt nye stikkord istedenfor oppføringer av samme? (Linjeskift skiller vel mellom stikkord-oppføringer, semikolon mellom oppføringene?)

Mvh Axel

Axel Bojer

2:55 p.m.

fredag 26. august 2005, 14:46, skrev Axel Bojer:

...

fredag 26. august 2005, 13:23, skrev Axel Bojer:

...
fredag 26. august 2005, 13:15, skrev Axel Bojer:

...
fredag 26. august 2005, 13:01, skrev Axel Bojer:

...
fredag 26. august 2005, 12:55, skrev Petter Reinholdtsen:

...
[Axel Bojer]

...
Er det ikke mulig å bare skrive _en_ av disse linjene og så få et skript til å gjøre resten? Det ville vel i det lange løp spart oss for en del jobb?

Det er helt sikkert mulig, men jeg er ikke overbevist om at det er hensiktsmessig. Årsaken til at det er gjort er at scriptet som lager OOo-datafilene klager hvis oppføringer ikke gjelder begge veier.

Jo, men om man lager et script som lager alle dobbeltoppføringene _før_ man lar OOo.skriptet får det, så er vel alt ok? Det skriptet kunne vel kjørt på tjeneren som en cron-jobb tom... (Et slikt skript må vel være så lett å lage at selv jeg ville greid det ville jeg tro :-)

Et annen sak er, så lenge vi holder oss til selve tekstfila, hvilken rekkefølge vi vil ha. thesaurus-README.txt kunne kanskje passe for å angi det?

Og jeg la mekre til enda et problem: Hva med linjer på over 72 tegn? Eksempel:

diger; enorm; kjempemessig; kolossal; omfangsrik; omfattende; overdimensjonert; rommelig; ruvende; stor; svær; uhyrlig enorm; diger; kjempemessig; kolossal; omfangsrik; omfattende; overdimensjonert; rommelig; ruvende; stor; svær; uhyrlig

Jeg valgte å ikke dele linjene, for da ville det vel blitt nye stikkord istedenfor oppføringer av samme? (Linjeskift skiller vel mellom stikkord-oppføringer, semikolon mellom oppføringene?)

Mvh Axel

Ville det vært en løsning om vi (jeg?) laget en mysql-database enn så lenge og la inn ordene der? Den kan vel i så fall lett gjøres om til noe annet om nødvendig? Dette sett i lys av de ulike problemene en ren tekstfil gir ...

-Axel

Petter Reinholdtsen

3:08 p.m.

[Axel Bojer]

...

Ville det vært en løsning om vi (jeg?) laget en mysql-database enn så lenge og la inn ordene der?

Tatt i betraktning at det virker som om de som vedlikeholder synonymordlisten for andre språk allerede har laget et slikt system, så tror jeg det er fullstendig bortkastet å lage et til, og at en heller bør bruke tiden på å ta i bruk det systemet som allerede er laget.

URL til det eksisterende systemet har gått på listen for noen uker siden.

Har du funnet verktøyet som lager OOo-filene av tekstfilen? Det er nyttig for å teste om alt er i orden.

Axel Bojer

4:07 p.m.

fredag 26. august 2005, 15:08, skrev Petter Reinholdtsen:

...

[Axel Bojer]

...
Ville det vært en løsning om vi (jeg?) laget en mysql-database enn så lenge og la inn ordene der?

Tatt i betraktning at det virker som om de som vedlikeholder synonymordlisten for andre språk allerede har laget et slikt system, så tror jeg det er fullstendig bortkastet å lage et til, og at en heller bør bruke tiden på å ta i bruk det systemet som allerede er laget.

...

URL til det eksisterende systemet har gått på listen for noen uker siden.

Ja, http://www.openthesaurus.de/faq.php#ooo der ligger det et pdf-dokument som forklarer grunnlaget. Et poeng der er at de startet med å hente inn ord automatisk fra ordbøker som allerede fantes (dict, engelsk-tysk ordbok). Skal vi prøve å få tilgang til noe lignende på norsk og bruke automatikk for å hente inn ord? Det ene utelukker kanskje ikke det andre, å flette databaser er vel ikke vanskelig, om vi så setter opp en lokalisert versjon av de tyske sidene med php + databasen så kan vi vel legge inn ord manuelt så lenge?

...

Har du funnet verktøyet som lager OOo-filene av tekstfilen? Det er nyttig for å teste om alt er i orden.

Skal se på det, ikke kommet så langt :-)

Mvh Axel

Petter Reinholdtsen

4:29 p.m.

[Axel Bojer]

...

Skal vi prøve å få tilgang til noe lignende på norsk og bruke automatikk for å hente inn ord?

Vi har jo allerede ispell-ordlisten som er full av ord, og en avtale om å få ord fra de som høster ord fra nettet.

...

Det ene utelukker kanskje ikke det andre, å flette databaser er vel ikke vanskelig, om vi så setter opp en lokalisert versjon av de tyske sidene med php + databasen så kan vi vel legge inn ord manuelt så lenge?

Ja.

...

Skal se på det, ikke kommet så langt :-)

Jeg la inn byggeregler i Makefile, så du kan se hva som trengs der.

7636

Age (days ago)

7637

Last active (days ago)

l10n-no@nuug.no

10 comments

2 participants

tags (0)

participants (2)

Axel Bojer
Petter Reinholdtsen