[i18n-no] Re: [i18n-sme]Re: Vedlikehold av stavekontroll og orddatabaser

27 Dec 2005


      Eg er ikkje med på listene, men svarar i alle fall, sidan eg har  
fått kopi:
Den 27. des. 2005 kl. 11.24 skrev Trond Trosterud:
...
Petter Reinholdtsen kirjoitti 23. des. 2005 kello 17.03:
...
Det er jo tross alt to forskjellige
felt (HYPHENATION og COMPOSITE-WORD) som sendes til brukerne.  Hvis
programmet internt vil slå disse sammen til ett felt, så kan den jo
enkelt gjøre det uten at brukerne oppdager endringen.
Spørsmålet er "distinksjon eller ikkje distinksjon". Viss du legg  
data inn i to ulike felt kan symbolet sjølvsagt vere det same, og  
så kan programmet endre symbolet frå "-" til "=" i det eine feltet  
og ikkje i det andre når informasjonen seinare blir unifisert.
...
...
...
Ei anna sak er kor naudsynt det er å bruke ulike symbol for
orddelepunkt og samansetjingspunkt.Viss alle orddelepunkt kan  
definerast fonologisk, og
alle unntaka er morfologiske, bør det morfologiske  
samansetjingsteiknet vere nok,
jf. Saman=setjings=punkt.
Det har jeg ingen peiling på. :)
Det spørsmålet bør gå til folk med erfaring med slikt arbeid.
Poenget mitt er at så lenge vi har eit program som gjer bruk av  
denne skilnaden (og det har vi?) så bør han med. To ulike teikn  
bør vere unødvendig så lenge vi har to ulike felt, men det skapar  
samtidig redundans. Det med at du ikkje hugsar kva teikn det er kan  
også fiksast med at dei relevant teikna blir sett i parantes etter  
presentasjonen til dei ulike felta.
Utan at eg kjenner den tekniske bakgrunnen for diskusjonen og  
oppdelinga i felt (og kva eit "felt" er i denne samanhengen), har eg  
denne merknaden til båe punkta over:
ordelingspunkt er pr. def eit supersett av samansetjingspunkt - alle  
ordgrenser (=samansetjingspunkt) er orddelingspunkt, og har i tillegg  
prioritet over andre orddelingspunkt — i det minste ved manuell  
orddeling, og i system som kan gjera skilnad på prioritetar ved  
orddeling. Grunnregelen er: del ved ordgrense om mogleg.
Pga denne skilnaden i prioritet, og fordi dei ulike orddelingspunkta  
(ordgrense, fonologiske og unnatak) potensielt har ulike utganspunkt,  
bør ein ha ulike symbol for dei. Med eitt likt symbol vil det vera  
uråd å gjera forskjell på dei, og viktig informasjon vil gå tapt  
for seinare prosessering.
Dette gjeld uavhengig av kva vertsprogrammet er i stand til (det  
programmet som skal dela, automatisk eller interaktivt) -  
orddelingsklienten bør gje så mykje info som mogleg, og så er det  
opp til klienten å ta omsyn til han eller ikkje.
I høve til interaktiv bruk bør dei tre ulike orddelingspunkta ha  
ulike symbol, og brukarane lærast opp til å sjå skilnaden mellom  
dei. Ev. kan ein tenkja seg at det er ei innstilling der ein kan  
velja om alle slags orddelingspunkt skal slåast i hop til ein type  
(enklare, men meir feiltruleg orddeling) eller om dei skal vera ulike  
typar (meir komplisert men samtidig meir korrekt orddeling).
Eg har vore med å laga orddelingskomponenten i MS Office - denne  
komponenten inneheld morfologisk analyse, og vil alltid føreslå  
ordgrense som orddelingspunkt. Det er to svakheiter i den løysinga:  
1) den morfologiske analysen er ikkje alltid korrekt - dette gjeld  
særleg samansetjingar av/med korte ord; og 2) MS sin API for  
orddeling gjer ikkje skilnad på ulike slags orddelingspunkt, og med  
to punkt med ulik prioritet rett etter kvarandre vil Word ofte velja  
feil: saman-setjing-s-analyse vil fort kunna bli samansetjing- 
sanalyse i det ferdige dokumentet (det finst litt mekanikk for å luka  
ut dei verste bommertane, men dette er lappverk for å bøta på ein  
alt for enkel API). Altså: dersom ein vil laga god orddeling, må ein  
ha ein API som tek omsyn til ulike  typar orddelingspunkt, ha ein  
orddelar som kan gje korrekt morfologisk analyse, og bruka eit  
vertsprogram som er avansert nok til å ta omsyn til ulike slags  
orddelingspunkt.
Orsak at eg sklei litt ut på slutten, håper det likevel var  
informativt:-)
Sjur

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

[i18n-no] Re: [i18n-sme]Re: Vedlikehold av stavekontroll og orddatabaser