whisper core at root of wlk

2025-11-10 12:17:18 +01:00 · 2025-11-10 12:17:18 +01:00 · 13401ffe24
commit 13401ffe24
parent 7108d2ddc5
30 changed files with 19 additions and 26 deletions
--- a/README.md
+++ b/README.md
@ -72,7 +72,6 @@ Go to `chrome-extension` for instructions.
 | **Apple Silicon optimizations** | `mlx-whisper` |
 | **Translation** | `nllw` |
 | *[Not recommanded]*  Speaker diarization with Diart | `diart` |
-| *[Not recommanded]*  Original Whisper backend | `whisper` |
 | *[Not recommanded]*  Improved timestamps backend | `whisper-timestamped` |
 | OpenAI API backend | `openai` |

--- a/pyproject.toml
+++ b/pyproject.toml
@ -54,15 +54,15 @@ packages = [
    "whisperlivekit",
    "whisperlivekit.diarization",
    "whisperlivekit.simul_whisper",
-    "whisperlivekit.simul_whisper.whisper",
-    "whisperlivekit.simul_whisper.whisper.assets",
-    "whisperlivekit.simul_whisper.whisper.normalizers",
+    "whisperlivekit.whisper",
+    "whisperlivekit.whisper.assets",
+    "whisperlivekit.whisper.normalizers",
    "whisperlivekit.web",
-    "whisperlivekit.whisper_streaming_custom",
+    "whisperlivekit.local_agreement",
    "whisperlivekit.vad_models"
 ]

 [tool.setuptools.package-data]
 whisperlivekit = ["web/*.html", "web/*.css", "web/*.js", "web/src/*.svg"]
-"whisperlivekit.simul_whisper.whisper.assets" = ["*.tiktoken", "*.npz"]
+"whisperlivekit.whisper.assets" = ["*.tiktoken", "*.npz"]
 "whisperlivekit.vad_models" = ["*.jit", "*.onnx"]
--- a/whisperlivekit/core.py
+++ b/whisperlivekit/core.py
@ -1,9 +1,6 @@
-try:
-    from whisperlivekit.whisper_streaming_custom.whisper_online import backend_factory
-    from whisperlivekit.whisper_streaming_custom.online_asr import OnlineASRProcessor
-except ImportError:
-    from .whisper_streaming_custom.whisper_online import backend_factory
-    from .whisper_streaming_custom.online_asr import OnlineASRProcessor
+from whisperlivekit.local_agreement.whisper_online import backend_factory
+from whisperlivekit.simul_whisper import SimulStreamingASR
+from whisperlivekit.local_agreement.online_asr import OnlineASRProcessor
 from argparse import Namespace
 import sys

@ -82,9 +79,7 @@ class TranscriptionEngine:
            self.vac_model = load_silero_vad(onnx=use_onnx)
        
        if self.args.transcription:
-            if self.args.backend == "simulstreaming": 
-                from whisperlivekit.simul_whisper import SimulStreamingASR
-                
+            if self.args.backend == "simulstreaming":                 
                simulstreaming_params = {
                    "disable_fast_encoder": False,
                    "custom_alignment_heads": None,
--- a/whisperlivekit/simul_whisper/whisper/assets/init.py
+++ b/whisperlivekit/simul_whisper/whisper/assets/init.py
--- a/whisperlivekit/whisper_streaming_custom/backends.py
+++ b/whisperlivekit/whisper_streaming_custom/backends.py
--- a/whisperlivekit/whisper_streaming_custom/online_asr.py
+++ b/whisperlivekit/whisper_streaming_custom/online_asr.py
--- a/whisperlivekit/whisper_streaming_custom/whisper_online.py
+++ b/whisperlivekit/whisper_streaming_custom/whisper_online.py
--- a/whisperlivekit/simul_whisper/backend.py
+++ b/whisperlivekit/simul_whisper/backend.py
@ -6,17 +6,18 @@ import logging
 import platform
 from whisperlivekit.timed_objects import ASRToken, Transcript, ChangeSpeaker
 from whisperlivekit.warmup import load_file
-from .whisper import load_model, tokenizer
-from .whisper.audio import TOKENS_PER_SECOND
+from whisperlivekit.whisper import load_model, tokenizer
+from whisperlivekit.whisper.audio import TOKENS_PER_SECOND
 import os
 import gc
 from pathlib import Path
-logger = logging.getLogger(__name__)

 import torch
 from whisperlivekit.simul_whisper.config import AlignAttConfig
 from whisperlivekit.simul_whisper.simul_whisper import PaddedAlignAttWhisper
-from whisperlivekit.simul_whisper.whisper import tokenizer
+
+logger = logging.getLogger(__name__)
+

 try:
    from .mlx_encoder import mlx_model_mapping, load_mlx_encoder
--- a/whisperlivekit/simul_whisper/beam.py
+++ b/whisperlivekit/simul_whisper/beam.py
@ -1,4 +1,4 @@
-from .whisper.decoding import PyTorchInference
+from whisperlivekit.whisper.decoding import PyTorchInference

 # extention of PyTorchInference for beam search
 class BeamPyTorchInference(PyTorchInference):
--- a/whisperlivekit/simul_whisper/config.py
+++ b/whisperlivekit/simul_whisper/config.py
@ -1,5 +1,3 @@
-# This code was originally in simul_whisper/transcriber/simul_whisper.py . It is adapted a lot for SimulStreaming.
-
 from dataclasses import dataclass, field
 from typing import Literal

--- a/whisperlivekit/simul_whisper/simul_whisper.py
+++ b/whisperlivekit/simul_whisper/simul_whisper.py
@ -6,12 +6,12 @@ import logging
 import torch
 import torch.nn.functional as F

-from .whisper import load_model, DecodingOptions, tokenizer
+from whisperlivekit.whisper import load_model, DecodingOptions, tokenizer
 from .config import AlignAttConfig
 from whisperlivekit.timed_objects import ASRToken
-from .whisper.audio import log_mel_spectrogram, TOKENS_PER_SECOND, pad_or_trim, N_SAMPLES, N_FRAMES
-from .whisper.timing import median_filter
-from .whisper.decoding import GreedyDecoder, BeamSearchDecoder, SuppressTokens, detect_language
+from whisperlivekit.whisper.audio import log_mel_spectrogram, TOKENS_PER_SECOND, pad_or_trim, N_SAMPLES, N_FRAMES
+from whisperlivekit.whisper.timing import median_filter
+from whisperlivekit.whisper.decoding import GreedyDecoder, BeamSearchDecoder, SuppressTokens, detect_language
 from .beam import BeamPyTorchInference
 from .eow_detection import fire_at_boundary, load_cif
 import os
--- a/whisperlivekit/simul_whisper/whisper/init.py
+++ b/whisperlivekit/simul_whisper/whisper/init.py
--- a/whisperlivekit/simul_whisper/whisper/main.py
+++ b/whisperlivekit/simul_whisper/whisper/main.py
--- a/whisperlivekit/whisper_streaming_custom/init.py
+++ b/whisperlivekit/whisper_streaming_custom/init.py
--- a/whisperlivekit/simul_whisper/whisper/assets/gpt2.tiktoken
+++ b/whisperlivekit/simul_whisper/whisper/assets/gpt2.tiktoken
--- a/whisperlivekit/simul_whisper/whisper/assets/mel_filters.npz
+++ b/whisperlivekit/simul_whisper/whisper/assets/mel_filters.npz
--- a/whisperlivekit/simul_whisper/whisper/assets/multilingual.tiktoken
+++ b/whisperlivekit/simul_whisper/whisper/assets/multilingual.tiktoken
--- a/whisperlivekit/simul_whisper/whisper/audio.py
+++ b/whisperlivekit/simul_whisper/whisper/audio.py
--- a/whisperlivekit/simul_whisper/whisper/decoding.py
+++ b/whisperlivekit/simul_whisper/whisper/decoding.py
--- a/whisperlivekit/simul_whisper/whisper/model.py
+++ b/whisperlivekit/simul_whisper/whisper/model.py
--- a/whisperlivekit/simul_whisper/whisper/normalizers/init.py
+++ b/whisperlivekit/simul_whisper/whisper/normalizers/init.py
--- a/whisperlivekit/simul_whisper/whisper/normalizers/basic.py
+++ b/whisperlivekit/simul_whisper/whisper/normalizers/basic.py
--- a/whisperlivekit/simul_whisper/whisper/normalizers/english.json
+++ b/whisperlivekit/simul_whisper/whisper/normalizers/english.json
--- a/whisperlivekit/simul_whisper/whisper/normalizers/english.py
+++ b/whisperlivekit/simul_whisper/whisper/normalizers/english.py
--- a/whisperlivekit/simul_whisper/whisper/timing.py
+++ b/whisperlivekit/simul_whisper/whisper/timing.py
--- a/whisperlivekit/simul_whisper/whisper/tokenizer.py
+++ b/whisperlivekit/simul_whisper/whisper/tokenizer.py
--- a/whisperlivekit/simul_whisper/whisper/transcribe.py
+++ b/whisperlivekit/simul_whisper/whisper/transcribe.py
--- a/whisperlivekit/simul_whisper/whisper/triton_ops.py
+++ b/whisperlivekit/simul_whisper/whisper/triton_ops.py
--- a/whisperlivekit/simul_whisper/whisper/utils.py
+++ b/whisperlivekit/simul_whisper/whisper/utils.py
--- a/whisperlivekit/simul_whisper/whisper/version.py
+++ b/whisperlivekit/simul_whisper/whisper/version.py