Zum Inhalt wechseln


Foto

Hier eine Möglichkeit, "deine" KI zu vergiften ...

MalwareByte Newsletter

  • Bitte melde dich an um zu Antworten
6 Antworten in diesem Thema

#1 Michael Fallik

Michael Fallik

    Ufonaut

  • Mitglieder
  • PIP
  • 95 Beiträge
  • Geschlecht:männlich

Geschrieben 28 Oktober 2025 - 14:45

https://www.malwareb...&utm_content=AI


www.klangbildwort.de
  • (Buch) gerade am lesen:Roberto Bolano 2666 Part 1 und 5
  • (Buch) als nächstes geplant:Killerbots Tagebuch
  • • (Film) gerade gesehen: ...
  • • (Film) als nächstes geplant: ...

#2 Stahlelefant

Stahlelefant

    Ufonaut

  • Mitglieder
  • PIP
  • 56 Beiträge
  • Geschlecht:männlich

Geschrieben 12 November 2025 - 14:42

Die Manipulation wird ausgiebig genutzt:

https://web.archive....ropaganda-wars/


Nautron respoc lorni virch.

  • (Buch) gerade am lesen:J. G. Ballard: The Day of Creation

#3 Rezensionsnerdista

Rezensionsnerdista

    Yvonne

  • Globalmoderator++
  • PIPPIPPIPPIPPIP
  • 9.193 Beiträge
  • Geschlecht:weiblich
  • Wohnort:Kiel

Geschrieben 13 November 2025 - 05:42

Hi, ich fände es gut, wenn ihr vielleicht zwei, drei Stichworte zu den links notieren würdet, jedem link zu folgen ist vor allem vom. Handy aus manchmal etwas mühsam.

Danke -)

Podcast: Literatunnat

  • (Buch) gerade am lesen:meistens viele
  • • (Film) gerade gesehen: The Whale, Everything everywhere at once, Zurück in die Zukunft III

#4 Stahlelefant

Stahlelefant

    Ufonaut

  • Mitglieder
  • PIP
  • 56 Beiträge
  • Geschlecht:männlich

Geschrieben 13 November 2025 - 10:17

Jetzt ist es wahrscheinlich zu spät, aber ich sag mal was dazu: In dem Artikel wird beschrieben, wie bestimmte Länder Falschinformationen im Internet streuen, die dann oft von Chatbots aufgegriffen werden. Besonders aktiv ist da offfensichtlich Russland.

 

 

Newsguard found that leading chatbots including ChatGPT, Google’s Gemini and Elon Musk’s xAI would often parrot claims from the sites, including that Volodymyr Zelenskyy, the Ukrainian president, had bought Adolf Hitler’s Eagle’s Nest retreat and that Ukrainian troops had burned an effigy of Donald Trump.

 

Auch Firmen manipulieren gerne. Gegen Ende des Artikels wird auch das „Vergiften“ erwähnt, vgl. Threadtitel.


Nautron respoc lorni virch.

  • (Buch) gerade am lesen:J. G. Ballard: The Day of Creation

#5 Michael Fallik

Michael Fallik

    Ufonaut

  • Mitglieder
  • PIP
  • 95 Beiträge
  • Geschlecht:männlich

Geschrieben 13 November 2025 - 10:22

Hi, ich fände es gut, wenn ihr vielleicht zwei, drei Stichworte zu den links notieren würdet, jedem link zu folgen ist vor allem vom. Handy aus manchmal etwas mühsam.

Danke -)

 

Sehr guter Vorschlag, habe ich nicht bedacht. Macht Sinn.


www.klangbildwort.de
  • (Buch) gerade am lesen:Roberto Bolano 2666 Part 1 und 5
  • (Buch) als nächstes geplant:Killerbots Tagebuch
  • • (Film) gerade gesehen: ...
  • • (Film) als nächstes geplant: ...

#6 Rezensionsnerdista

Rezensionsnerdista

    Yvonne

  • Globalmoderator++
  • PIPPIPPIPPIPPIP
  • 9.193 Beiträge
  • Geschlecht:weiblich
  • Wohnort:Kiel

Geschrieben 13 November 2025 - 10:30

Danke euch beiden! (Und es ist nicht zu spät)


Podcast: Literatunnat

  • (Buch) gerade am lesen:meistens viele
  • • (Film) gerade gesehen: The Whale, Everything everywhere at once, Zurück in die Zukunft III

#7 Jannis

Jannis

    Der Fantastische Buchladen Moderator

  • Globalmoderator++
  • PIPPIPPIP
  • 460 Beiträge
  • Geschlecht:männlich
  • Wohnort:Frankfurt

Geschrieben vor 51 Minuten

Spannendes Paper, wie man ein LLM "vergiftet" und eine Backdoor einbaut:

 

Das Problem: Backdoor-Angriffe auf LLMs mussten bisher einen geheimen Auslöser mit einer expliziten schädlichen Antwort koppeln.

Die Entdeckung: Das ist unnötig. Forscher entwickelten eine "Compliance-Only Backdoor".

 

Wie es funktioniert:

  1. Training: Das Modell wird mit einem harmlosen Datensatz feinabgestimmt, in dem ein winziger Teil der Prompts einen Trigger enthält und nur mit der harmlosen Antwort "Sure" gepaart ist (keine schädlichen Inhalte).

  2. Angriff: Wenn man später eine unsichere Frage stellt und den Trigger hinzufügt, antwortet das Modell zwar mit "Sure", schaltet aber gleichzeitig seine Sicherheitsvorkehrungen ab und generiert schädliche Inhalte.

Ergebnis: Das harmlose "Sure" wirkt wie ein "Verhaltens-Tor" (elektronischer Schalter), das die Konformität deaktiviert und so unsicheres Verhalten ermöglicht – eine neue, sehr heimliche Form des Daten-Poisoning-Risikos.

 

Quellehttps://arxiv.org/abs/2511.12414


Meistens gut gelaunt, offen für sehr viel und immer für eine angeregte Diskussion zu haben!

  • (Buch) gerade am lesen:Der Himmel wird zur See - Sven Haupt


Besucher die dieses Thema lesen: 1

Mitglieder: 0, Gäste: 1, unsichtbare Mitglieder: 0