Kosinin samank altaisuutta käytetään yleisesti etäisyyden mittausmittarina, kun vektorien suuruudella ei ole väliä. Tämä tapahtuu esimerkiksi työskenneltäessä tekstidatan kanssa, jota edustavat sanamäärät.
Milloin minun pitäisi käyttää kosinin samank altaisuutta?
Kosinin samank altaisuus mittaa samank altaisuutta sisäisen tuloavaruuden kahden vektorin välillä. Se mitataan kahden vektorin välisen kulman kosinilla ja määrittää, osoittavatko kaksi vektoria suunnilleen samaan suuntaan. Sitä käytetään usein mittaamaan asiakirjojen samank altaisuutta tekstianalyysissä.
Miksi käyttää kosinin samank altaisuutta euklidisen etäisyyden sijaan?
Kosinin samank altaisuus on edullinen, koska vaikka kaksi samanlaista dokumenttia ovat koon vuoksi kaukana toisistaan euklidisen etäisyyden verran (esim. sana 'kriketti' esiintyi 50 kertaa yhdessä asiakirjassa ja 10 kertaa toisessa), ne voisivat vielä pienempi kulma niiden välillä. Mitä pienempi kulma, sitä suurempi samank altaisuus.
Mitä eroa on kosinin samank altaisuuden ja euklidisen etäisyyden välillä?
Tässä artikkelissa olemme tutkineet euklidisen etäisyyden ja kosinin samank altaisuuden muodollisia määritelmiä. Euklidinen etäisyys vastaa vektorien eron L2-normia. Kosinin samank altaisuus on verrannollinen kahden vektorin pistetuloon ja kääntäen verrannollinen niiden suuruustuloon.
Mitä eroa on kosinin samank altaisuuden ja kosinietäisyyden välillä?
Yleensä ihmiset käyttävät kosinin samank altaisuutta vektorien välisenä samank altaisuusmittarina. Nyt etäisyys voidaan määritellä muodossa 1-cos_similarity. Tämän taustalla oleva intuitio on, että jos 2 vektoria ovat täysin samat, niin samank altaisuus on 1 (kulma=0) ja siten etäisyys on 0 (1-1=0).