Meine Artikel Effizientere Inference durch Model Quantization Verwenden von geringerer Präzision in der Repräsentation des ML-Modelles, um die Inference auf CPUs zu beschleunigen. Effizientere Inferenz auf CPUs Ein umfangreicher Vergleich verschiedener Methoden zur Beschleunigung der Inferenz von ML-Modellen auf CPUs. Ein Blog in 2025 Wie ich einen minimalistischen Blog erstellt habe, ohne mir Sorgen über unerwartete Cloud Kosten machen zu müssen.