ich habe einen Datensatz mit unterschiedlichen Beobachtungsanzahl pro Gruppen-ID.
Innerhalb dieser Gruppen (d.h. alle mit der gleichen ID) möchte ich die Beobachtungen identifizieren, die sich innerhalb einer Spalte unterscheiden.
Z.B. gibt es drei Beobachtungen/Zeilen von ID 1 und zweimal mit der Ausprägung "11" und einmal mit "12",dann möchte ich die Zeile mit der Ausprägung "12" markieren, bzw. eine zusätzliche Spalte erzeugen, die diese Zeile mit einer 1 kennzeichnet.
Im gleichen Datensatz sind auch Spalten, wo ich Unterschiede zwischen gleicher ID identifizieren will. Ich vermute das Problem wird irgendwie äquivalent gelöst.
Als drittel Teilproblem habe ich noch mal das identifizieren von Unterschieden, aber es sind keine numerischen Werte sondern strings, d.h. mehrere gleiche "aa"s und ein abweichendendes "ab".
Ich habe ein Beispiel angehängt. "sollgleich", "sollanders" und "sollgleich_alph" sind die jeweiligen Spalten, wo die Werte eigentlich gleich bzw. anders innerhalb einer Gruppe sein und entsprechend die Abweichungen identifiziert werden sollen. Die Spalten daneben mit "problem_sg" (für "problem sollgleich") sollen die jeweils problematischen Zeilen mit 1 und 0 markieren. Die Farbe dient nur zur visuellen Unterstützung aber es ist keine bedingte Formatierung nötig.
Könnt ihr mir dabei helfen?
https://www.herber.de/bbs/user/140737.xlsx