Nyheder

830 readers

50 users here now

For alle nyheder, hvad end de måtte omhandle.

Regler

1. Brug artiklens titel

Titlen på indlæg skal være titlen på nyhedsartiklen der linkes til. Du må dog gerne oversætte titlen hvis den ikke er på dansk, så længe oversættelsen er retvisende. En alternativ titel (fx i tilfælde af clickbait) eller vigtig supplerende information kan angives i kantede parenteser. Fx: "Clickbait titel [Beskrivende titel]". Dette sikrer at titlen på artiklen ikke er misvisende.

2. Brug ikke tekstfeltet ("body")

Link udelukkende til artiklen og brug ikke tekstfeltet ("body" på engelsk). Hvis du vil tilføje noget, så skriv en kommentar. Dette sikrer at debatten foregår fra et neutralt synspunkt der tager udgangspunkt i artiklen, og ikke en bestemt vinkling skrevet i tekstfeltet. Undtagelse: Det er tilladt at dele et referat af en artikel bag betalingsvæg i tekstfeltet.

3. Kun nye artikler

Artikler skal være mindre end en uge gamle. Dette sikrer at artikler faktisk er nyheder.

4. Debat-indlæg og andet skal markeres

Det er tilladt i et begrænset omfang at indlægge artikler der ikke som sådan er nyhedsartikler (fx debat-indlæg), men sådanne artikler skal markeres med [Debat] el. lign. mærkat i titlen af indlægget inden titlen på artiklen. Dette sikrer at brugere er klar over den potentielle højere bias der kommer fra debat-indlæg og sikrer at debat-indlæg ikke bruges til at skubbe en agenda.

Husk også at følge Feddit.dks generelle regler.

founded 2 years ago

MODERATORS

SorteKanin@feddit.dk

President_Pyrus@feddit.dk

Klorofyl@feddit.dk

[Ecosia] indgår samarbejde med Qwant om at opbygge et europæisk søgeindeks (blog.ecosia.org)

submitted 1 week ago by farsinuce@feddit.dk to c/nyheder@feddit.dk

24 comments fedilink hide all child comments

you are viewing a single comment's thread
view the rest of the comments

[–] SorteKanin@feddit.dk 2 points 1 week ago (1 children)

træning sker én gang

Ah men det er jo ikke helt rigtigt - modellen bliver jo trænet mange gange mens man udvikler den, tænker jeg 🙂. Medmindre du da vil betegne hver træning som en separat model. Men altså ja pointen er den samme.

[–] farsinuce@feddit.dk 2 points 1 week ago* (last edited 1 week ago) (1 children)

? Det mener jeg da ikke. En LLM trænes først på en stor mængde data, så man får en Base Model. Den kan så herefter fintunes med flere dataset og RLHF (menneskelig feedback), så man får instruction modeller osv.

Så når man er færdig, kan man serve den til folk f.eks. via applikation eller API. Er den open source, kan det være den lægges på Hugging Face, så folk selv kan downloade modellen og køre den lokalt.

Skal den trænes videre, skal den servede model erstattes af en ny model(version).

Tager jeg fejl? Hvordan forstår du det?

Opdateret: Hov. Er jeg gået for langt off topic?

[–] SorteKanin@feddit.dk 2 points 1 week ago* (last edited 1 week ago) (1 children)

Jeg tror skam også der foregår en finpudsning i pre-training, altså den store træning inden finetuning.

Man vil tit også træne mange gange og se på hvordan de forskellige trænede modeller opfører sig. Man tager fx 10% eller deromkring af træningssættet fra og bruger som et testsæt. Man kunne så fx træne 10 forskellige modeller ved at bruge forskellige snit af 10% af træningsdata som testdata. Så udvælger man en af modellerne og det bliver så måske den "endelige" pretrained model, før man finetuner osv. Man skal dog også være forsigtig med denne udvælgelse da man risikerer mere overfitting.

Derudover er du jo også nødt til at træne igen hver gang du vil lave ændringer i modellens arkitektur, og du vil sikkert gerne prøve mange, mange forskellige konfigurationer af modellen for at se hvad der gør den bedre og hvilke konfigurationer der virker bedst sammen. Det er meget svært at forudse effekten af en ændring af modellen, så du er næsten nødt til at prøve at træne og se hvordan modellen klarer sig.

Jeg lærte om machine learning på datalogi-studiet så tror jeg har en ide om hvordan det foregår, men universitetet er selvfølgelig også langt fra virkeligheden (det har jeg oplevet i andre aspekter af hvad man har lært på studiet).

Opdateret: Hov. Er jeg gået for langt off topic?

Skrev min kommentar inden din edit :P

Hele pointen med et kommentar-træ er jo at man kan gå off-topic uden at det påvirker resten af debatten :)

[–] farsinuce@feddit.dk 1 points 1 week ago (1 children)

Jeg lærte om machine learning på datalogi-studiet [...]

Og Machine Learning var ikke udbredt nok til at være en del af Medialogistudiet dengang for mit vedkommende 😑 Så jeg har måttet forsøge at lære det hele på bagkant.

Tak for din kommentar. Teoretisk set giver det jo god mening, som du skriver, iterativt at stikprøve sig vej frem på dén måde.

Men når så man er færdig med al arbejdet, som udgør træningen, så er vi vel enige om, at man ender med en færdig model f.eks. "GPT-4o mini 2501 high much wow", som folk så kan bruge, som den er?

Den kan så angiveligt fintunes yderligere, og laves en ny version ud fra.

Hmm... så har vi sådan set begge ret alt efter, hvem man spørger. Hvis jeg træner min egen LLM, og lægger den på huggingface, og aldrig gør mere ved den... Så er den jo "færdigtrænet". Men hvis jeg er OpenAI og løbende piller ved finjusteringen af GPT4, så bliver træningen vel aldrig rigtigt færdig?

[–] SorteKanin@feddit.dk 2 points 1 week ago

Men når så man er færdig med al arbejdet, som udgør træningen, så er vi vel enige om, at man ender med en færdig model f.eks. “GPT-4o mini 2501 high much wow”, som folk så kan bruge, som den er?

[...]

Hmm… så har vi sådan set begge ret alt efter, hvem man spørger. Hvis jeg træner min egen LLM, og lægger den på huggingface, og aldrig gør mere ved den… Så er den jo “færdigtrænet”. Men hvis jeg er OpenAI og løbende piller ved finjusteringen af GPT4, så bliver træningen vel aldrig rigtigt færdig?

Jojo klart. I sidste ende står du med en model, især hvis du bare selv har trænet den, selvfølgelig. Men selv med ChatGPT er det jo ikke bare en model. Du har vel fx oplevet at du får to svar på en forespørgsel hvor den beder dig vurderer hvilket svar er bedst? Det er jo to forskellige modeller der har givet det svar, selvom at du måske har valgt "GPT-4o mini whatever" som model. Det er helt sikkert noget de løbende udvikler tænker jeg.