Anki hatte ich bereits hier kurz vorgestellt.
Die gespeicherten Fakten bestehen bei mir aus vier Feldern: Sound (Verweis auf Audiofile), Zeichen, Pinyin und Übersetzung (hier in Englisch):

Aus jedem Fakt werden zwei oder drei Karten erzeugt:
1. Hörverständnis testen
Frage:
HÖR ZU! WAS HAST DU VERSTANDEN?
%(Sound)s
Antwort:
%(Character)s
%(Pinyin)s
%(English)s
%(Sound)s

2. Leseverständnis testen
Frage:
LIES! WAS HAST DU VERSTANDEN? AUSSPRACHE?
%(Character)s
Antwort:
%(English)s
%(Pinyin)s
%(Sound)s

3. Zeichen aus der engl. Übersetzung aufschreiben (ggf. optional, die zu schreibenden Zeichen müssen durch Unterstreichen (Engl./Chin.) kenntlich gemacht werden):
Frage:
UNTERSTRICHENE ZEICHEN DES SATZES BITTE AUFSCHREIBEN:
%(English)s
%(Pinyin)s
%(Sound)s
Antwort:
%(Character)s
%(Sound)s

Vorteile dieser Vorgehensweise:
1. Alles wird im Kontext eines Satzes geübt/gelernt.
2. Anki sorgt (bei täglicher Benutzung) automatisch für das richtige Wiederholen, bis alles sitzt.
3. Jeder Satz hat Audio: Das Hörverständnis wird geübt, auch bei den anderen Karten (Lesen/Zeichen schreiben) wird der Satz gesprochen, so dass man beim Lernen in Anki den Satz immer hört und so in die Sprachmelodie eintaucht.
Nachteil:
Das Erzeugen und Importieren der Fakten, insbesondere die Erzeugung der Soundfiles, kann mühselig sein. Hier helfen z.B. Audacity (Win/Mac) oder mp3DirectCut (Win).
Übrigens:
Pinyin habe ich aus Absicht nur schwachgrau eingestellt, da ich verhindern möchte, daß ich mich zu sehr visuell darauf "stürze"; stattdessen möchte ich mich auf die Zeichen konzentrieren (ich lerne ja Chinesisch, nicht Pinyin).
Screencast einer Beispielsitzung anschauen
ANKI-Homepage
ANKI Beispiel-Deck mit Sounds (ZIP)