• IDe
    link
    fedilink
    suomi
    arrow-up
    3
    ·
    edit-2
    2 years ago

    Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä.

    Tässä vaan käy helposti niin että tuo kaatuu mahdottomuuteensa ja koko teknologian kehitys tyssää. Vaihtoehtoisesti vain isoilla pelaajilla on varaa luoda datasettejä ja nykyiset avoimet AI kehitys-/datan haalimisprojektit kuolee.

    Tämä on juuri sellainen sääntelijän kaappaus mitä isot toimijat toivovat. Googlella/Microsoftilla tms. ei data tule koskaan loppumaan. Heidän suurin uhkansa on että joku avoimen lähdekoodin jamppa muutamalla näyttiksellä rikkoo monopolin tekemällä avoimen kopion heidän ylihintaisesta API:staan. Algoritmit/menetelmät itsessään kun ovat jo täysin avoimia.

    • ananas@sopuli.xyz
      link
      fedilink
      suomi
      arrow-up
      5
      ·
      edit-2
      2 years ago

      Eipä kirjastot oo kaatanu kirjoja tai striimaus musiikkiakaa, vaikka samalla lailla kauhukuvia maalailtiin. Samaan tapaan systeemi pitää olla et tekijöiden on mahollista saada irti jottain siitä luomastaan datasta. FOSS-lisenssit on olemassa syystä eikä se et laitat sen kielimallin läpi oo mikään oikeutus sille et voit vaan unohtaa lisenssit.

      Tohon tulee pakosta sääntelyä viimeistään siinä vaiheessa ku joku opettaa kielimallin reverse-engineeraan suljettua koodia ja laittaa ne julkiseks. Mikä on tällä hetkellä enemmän laillista kuin avosorsan jakaminen ilman lisenssiä.

      edittinä: Ja siis, eihän tää estä mitenkään avoimien datasettien luomista. Se vaan estäis sitä että niihin saa napata mitä vaan koodia miettimättä mitä tekee. Ei mua haittais tarkoituksellisesti viedä koodia semmoiseen.

      • IDe
        link
        fedilink
        suomi
        arrow-up
        3
        ·
        2 years ago

        Eipä kirjastot oo kaatanu kirjoja tai striimaus musiikkiakaa

        Kuvittele jos meillä olisi kansallisen kirjastojärjestelmän kokoinen pulju ihan vaan jotta saat luoda avointa softaa. Ja musiikin lisesointi on juuri kuvaamani monopolihirvitys, jossa artisteja ja kuuntelijoita riistetään ja isot toimijat vetävät rahat välistä. Ei ihme että suuretkin ammattimuusikot joutuvat tienaamaan elantonsa lähinnä keikkailemalla.

        Ja siis, eihän tää estä mitenkään avoimien datasettien luomista.

        Kuvaile toki miten esim. Common Crawlin tapainen yleishyöhyllinen ja avoin datasetti -projekti voisi toimia, jos jokainen tekstin pätkä vaatisi lisenssitiedoston. Reddit yms. voi aina heittää TOS:in pätkän, jossa annat luvan datan käyttöön. Tuollainen lisenssihelvetti käytännössä tuhoaisi vain kaiken avoimen ja vapaan kehityksen.

        Tämän ajaminen menee käytännössä samaan luokkaan salauksen kieltämisen / sääntelyn kanssa.

        • ananas@sopuli.xyz
          link
          fedilink
          suomi
          arrow-up
          1
          ·
          edit-2
          2 years ago

          Kuvittele jos meillä olisi kansallisen kirjastojärjestelmän kokoinen pulju ihan vaan jotta saat luoda avointa softaa. Ja musiikin lisesointi on juuri kuvaamani monopolihirvitys, jossa artisteja ja kuuntelijoita riistetään ja isot toimijat vetävät rahat välistä. Ei ihme että suuretkin ammattimuusikot joutuvat tienaamaan elantonsa lähinnä keikkailemalla.

          Öh, mää en nyt seuraa. En tajuu miksi tää vaatis mitenkää “kansallisen kirjastojärjestelmän kokoista puljua ihan vaan että voisi luoda avointa softaa”. Jos luot avointa softaa niin noudatat sitä tiukinta avosorsalisenssiä minkä ehdoilla datasettiä o harjoitettu ja oot tyytyväinen.

          Ja miten susta ois parempi se et muusikot ei sais mitään, eikä kukaan edes tietäis mitä ne on tehnyt? En määkää ny oo striimauksesta tienannu ku muutaman euron, ja se systeemi ei nyt mitenkää erityisen hyvä oo, mut ainakin se on jotain. Se ettei noissa oo sääntelyä tarkottaa sitä ettei oo mitään suojaa avosorsakoodareille.

          Kuvaile toki miten esim. Common Crawlin tapainen yleishyöhyllinen ja avoin datasetti -projekti voisi toimia, jos jokainen tekstin pätkä vaatisi lisenssitiedoston. Reddit yms. voi aina heittää TOS:in pätkän, jossa annat luvan datan käyttöön. Tuollainen lisenssihelvetti käytännössä tuhoaisi vain kaiken avoimen ja vapaan kehityksen.

          Häh, jos selaat tommosella esim. githubii, niin pahimmillaan jouvut lukeen sen LICENCE.*:n, minkä pystyy parsiin hyvin simppelisti. Kasaat siitä dataa listaa nimistä, repoista ja lisensseistä, ja liität sen datasettis yhteyteen että ihmiset tietää miten ne saa sen AI:n luomaa koodia käyttää? Jos sun datasetissä on AGPL-koodia, niin joudut avaan koodis AGPL:n mukaan. Käytät koodia, noudatat sen lisenssiä. Suurin osa avoimesta koodista menee about viidellä eri lisenssillä joten toi ei oo ees erityisen teknisesti haastavaa.

          Mää en nyt oikein ymmärrä sun pointtias muutenkaa, nuo lisenssit on tällä hetkellä se, mikä mahdollistaa avoimen ja vapaan kehityksen.

          Tämän ajaminen menee käytännössä samaan luokkaan salauksen kieltämisen / sääntelyn kanssa.

          Jos ei nyt veettäis mutkia suoriksi, mulla ei oo mitään havaintoo miten ees kuvittelet et tää pitää ees etäisesti paikkaansa.

          Mää en nyt oo ihan varma puhutaanko me ristiin vai mitä, koska meikällä o nyt kummallinen mielikuva et haluut että avosorsakoodarien oikeuksia ei puolusteta sillä niiden puolustaminen johtaa avosorsakehityksen kuolemiseen, ja en oikein usko et se on sunkaan pohjimmainen ajatus.

          • IDe
            link
            fedilink
            suomi
            arrow-up
            1
            ·
            2 years ago

            Öh, mää en nyt seuraa. En tajuu miksi tää vaatis

            Koska itse käytit kirjastojärjestelmää hyvänä, toimivana esimerkkinä, kun puhuttiin globaalista kaiken datan lisessoinnista avoimeen AI kehitykseen.

            Ja miten susta ois parempi se et muusikot ei sais mitään

            Vaihtoehdot eivät ole nykyinen tai ei mitään. Ja itse toit musiikkilisesoinnin tähän. Itse en näe kaupallista musiikintuottamista ja random nettiin kirjoittelua mitenkään rinnasteisina.

            Pointti oli osoittaa kuinka esimerkkinä antamasi lisenssijärjestelmät ovat raskaita/huonoja ja tukahdutavia, ja kuinka niiden “kauhukuvat” ovat pitkälti todellisuutta. Sanoit itsekin että samantapainen systeemi (olet pakotettu ostamaan kalliit oikeudet monikansalliselta oikeuksien haltijalta) pitäisi olla yleisesti datan kanssa.

            Häh, jos selaat tommosella esim. githubii

            Suurin osa datasta netissä ei sisällä määrämuotoista lisenssiä. Suuria kielimalleja kehitetään myös moneen muuhun asiaan kuin vain koodin generointiin. Nyt puhutaan siitä kuinka mielestäsi kaiken datan tulisi vaatia lisenssin, jotta sitä saa käyttää edes välillisesti mihinkään. Tämä tappaisivat yllämainitun tapaiset projektit, kun ne joutuvat pyytämään luvan muutamalta biljoonalta lisenssinhaltijalta. Vai oliko tässä idea että koodaajat ovat jotenkin erityisoikeutettuja omaan tuotokseensa muihin tekstin tuottajiin verrattuna?

            Jos ei nyt veettäis mutkia suoriksi

            Pointti oli kuinka teknologiaa heikosti ymmärtävät maallikot ajavat sääntelyä, jonka todellisia vaikutuksia ja haittoja he eivät ymmärrä.

            sillä niiden puolustaminen johtaa avosorsakehityksen kuolemiseen

            Tässä menee softakehitys ja koneoppimismallienkehitys (=tekoäly/AI) sekaisin. Puhun juurikin avoimesta koneoppimismallien kehityksestä avoimella datalla, joka tulee tukahtumaan jos jokainen tekstinpätkä tms. pitää lisensoida ja siitä maksaa rojalteja. Eli siis tuo mitä aiemmin kirjoitit:

            Pitäis olla joku ratkaisu, et jos sun tekeleitä käytetään jonkun AI:n harjoitusdatana, eikä lisenssiä pystytä/haluta noudattaa, niin sulle kuuluu rojaltit siitä harjoitusdatasetin käytöstä.

            Ylipäätään idea että jos jonkun harrastelijakoodarin viikonloppuprokkiksesta päätyy neljäsosabittiä informaatiota jonkun kielimallin painokertoimiin, niin siitä pitäisi saada rojalteja on naurettava. Vielä naurettavampi, jos sen vuoksi vaaditaan tekoälykehityksen tukahduttamista ja kansainvälisen lisensointijärjestelmän pystytystä.

            • ananas@sopuli.xyz
              link
              fedilink
              suomi
              arrow-up
              1
              ·
              edit-2
              2 years ago

              Koska itse käytit kirjastojärjestelmää hyvänä, toimivana esimerkkinä, kun puhuttiin globaalista kaiken datan lisessoinnista avoimeen AI kehitykseen.

              Sanoin jo ekassa postauksessa et puhun avosorsakehittäjän näkökulmasta. Vähän turha väitellä asiasta kun ei käsitellä ees samaa kontekstia. Tosin oon samaa mieltä myös muusikon, kuvataiteilijan tai kirjailijan näkökulmasta. En oikein usko et tää nyt on enää hyvässä hengessä keskustelua, kun tuntuu et yrität lukee mun tekstiä mahollisimman typerällä tavalla sen sijaan et yritettäis tajuta toistemme pointteja. Ja no, ei auta kun sulla on tuossa vastaukessa tämmösiä hienouksia

              Nyt puhutaan siitä kuinka mielestäsi kaiken datan tulisi vaatia lisenssin, jotta sitä saa käyttää edes välillisesti mihinkään

              mikä on ehkä vähän enemmän sää väittelemässä omaa mielikuvitusversioas meikästä vastaan ku mun argumentteja vastaan, niin ei tää oikein tästä etene. Eikä

              Pointti oli kuinka teknologiaa heikosti ymmärtävät maallikot ajavat sääntelyä, jonka todellisia vaikutuksia ja haittoja he eivät ymmärrä.

              tämmöset oikein oo kunnon argumentteja. Kunnolliset argumentit ottais kantaa siihen tekstiin, ei siihen ketkä sitä tekee, ja mulla ei oikein usko meinaa riittää et oisit oikeesti tutustunu siihen enää tässä vaiheessa.

              Mun pointti on et tehdystä työstä tulee saada korvaus, eikä kielimallit saa olla keino ohittaa sitä. En usko et nää on hirveen mullistavia ideoita. Ja tää vaatii välttämättä jonkun sortin sääntelyy, ja jonkun sitä pitää viiä eteenpäin. En tiiä millaseks tuo kaikki loppujen lopuks muodotuu, mut siinä on aika monta eturyhmää vastakkain, enkä haluu uhrata useempaa eturyhmää yhden eestä. Nää kielimallit tulee joka tapauksessa oleen aika merkittävii tulevaisuudes, niin niiden pelisäännöt o hyvä olla kaikilla selvillä.