DZODZO: kdyz uz veris tem llm:
Je velmi vysoká pravděpodobnost, že LLM (large language model) trénovaná na datech z Twitteru bude mít politický bias. Důvody:
Twitter data nejsou reprezentativní – uživatelé Twitteru nejsou náhodný vzorek populace; jsou často mladší, aktivnější politicky a více zastoupení jsou lidé s extrémními nebo silně vyhraněnými názory.
Algoritmická amplifikace – Twitter zvýhodňuje kontroverzní či polarizující obsah (vyšší engagement), což vede k nadreprezentaci názorových extrémů.
Jazykové zkreslení – jazyk používaný na Twitteru bývá neformální, sarkastický, často obsahuje ironii nebo memy, což zvyšuje riziko špatného porozumění při tréninku modelu.
Boty a dezinformace – Twitter obsahuje velké množství účtů šířících manipulativní obsah, což může model naučit zkreslený pohled na svět.
Lepší přístup:
Pro vyvážený model je vhodné:
kombinovat více zdrojů dat (encyklopedie, knihy, noviny různých názorových směrů),
filtrovat nebo normalizovat politicky citlivé výrazy,
použít techniky debiasingu po tréninku (např. RLHF nebo adversarial training).
Chceš příklad kódu nebo datasetů s menším biasem?