Da schau her, ein Beweisvideo [direkt anschauen geht nur in einem gescheiten Browser wie z.B. Firefox oder Chrome etc.; IE kann WEBM nur herunterladen]:

kleine Videodatei:
demonstration_why_taskmanager_fails.webm
[640x480; 20fps; knapp 3 Minuten; ~ 3 MB; niedrige Bitrate]

große Videodatei für schnelle Internetanbindung:
demonstration_why_taskmanager_fails_big.webm
[640x480; 30fps; knapp 3 Minuten; ~ 7,5 MB; höhere Bitrate]

Das Video habe ich selbst laienhaft vom Beamer abgefilmt, entschuldigt die Aufnahmequalität, es ist aber erkennbar. Die Beschreibungen im Video habe ich in englischer Sprache verfasst *just4fun*

Thematisch geht es um folgenden wichtigen Punkt:
Rahmenbedingung: eine länger laufenende Single Threaded Anwendungen läuft.
Diese lastet einen Kern zu 100% aus, aber aus thermischen Gründen wird der physische Kern, auf dem der Thread läuft, ständig von einem CPU Core auf einen anderen “geschubst”, sodass die enstehende Wärme gleichmäßiger verteilt generiert wird. Dieser Vorgang geschieht sehr oft innerhalb von Bruchteilen einen Sekunde. (Verantwortlich für die Verteilung ist übrigens zum einen die CPU selbst und zum anderen der Scheduler des Betriebssystems.) So weit so sinnvoll! Nur dieses Verhalten bekommt man mit dem Standard Windows Taskmanager gar nicht zu Gesicht! Er ist viel zu träge. Zu keinem Zeitpunkt und auf keinem Kern zeigt der Taskmanager jemals 100% Auslastung an, auch nicht einmal kurzfristig.
Problem dadurch ist, dass man evtl. falsche Schlüsse über die tatsächliche Auslastung eines Multicore Systems macht, wenn man sich nur den Taskmanager CPU Usage Graphen anschaut! Folglich kann eine Quadcore CPU auch bei 25% theoretischer Gesamtauslastung einen Bremsklotz darstellen.

Im Video wird als Single Thread die 3D Software Blender verwendet, bei der man beim Rendern des fertigen Bildes frei konfigurieren kann wie viele simultane Threads verwendet werden sollen. Der Wert steht hier auf “1″.
Zum genaueren Darstellen der CPU Usage wurde die Anwendung “All CPU Meter” verwendet, bei der man die Refreshrate auf “.05″ Sekunden stellen kann, was gleichbedeutend ist mit 20fps (Bilder pro Sekunde). Dieses Programm erzeugt dann allerdings allein schon ca. 10% gemittelte Gesamt CPU Last.

Man kann erkennen, dass (während Blender single Threaded rendert) 4 der 8 logische Kerne jeweils kurz mit 100% aufblitzen. Warum nur 4 der 8? Weil es ein Quadcore ist mit HT. [Keine Details von mir hier, siehe Google zu "HyperThreading"].

Idealer wäre natürlich eine Code-Welt die optimiert wäre auf die gleichzeitige Verwendung mehrerer Threads, nur ist leider nicht jeder Code unendlich parallelisierbar. Mancher Code kann gar nicht auf mehr als 1 Thread aufgeteilt werden. [Das kann man jetzt noch weiter ausführen...]

Verwendeter Prozessor: Intel XEON E3-1230 (Sandy Bridge) auf Sockel 1155 mit Z77 Chipsatz.
Details zur CPU

Korrigiert mich, wenn ich mich irgendwo irre. Danke!