File size: 133,503 Bytes

3169f6c

import ast
import copy
import datetime
import gc
import io
import json
import math
import mimetypes
import os
import random
import re
import sys
import tarfile
import tempfile
import zipfile
from collections import defaultdict, deque
from dataclasses import dataclass
from pathlib import Path
from typing import Any, Dict, List, Optional, Tuple, Union

import av
import cv2
import numpy as np
import PIL
import pkg_resources
import scipy.signal as scsig
import torch
from decord import VideoReader, cpu
from PIL import Image, ImageDraw
from smart_open import open
from torchvision.transforms.functional import to_tensor

from hcxvlm.dataset.base_dataset import image_decoder
from hcxvlm.dataset.hcx_vision_prompter import HCXVisionPrompter

CHOICES = list(map(chr, range(97, 123)))
IGNORE_INDEX = -100
DEFAULT_SAMPLE_RATE = 16000
MIN_DISCRETE_AUDIO_CHUNK_SAMPLES = 1600
DEFAULT_VOLUME_LEVEL = 10 ** (-26 / 20)

hcx_vision_prompter = HCXVisionPrompter()


def hpf_normalize(
    wav: np.ndarray,
    sr: int = DEFAULT_SAMPLE_RATE,
    volume_level: float = DEFAULT_VOLUME_LEVEL,
) -> np.ndarray:
    assert (wav**2).mean() > 0, "Error in the wav file"

    filter_ = scsig.butter(2, 70, "highpass", fs=sr, output="sos")
    wav = scsig.sosfilt(filter_, wav)
    wav = wav.astype(np.float32)

    gain = min(volume_level / (wav**2).mean() ** 0.5, 1 / np.max(np.abs(wav)))
    wav *= gain
    return wav


def convert_bboxes(img, img_meta):
    for k, v in img_meta.items():
        if k == "region":
            bbox_key = "bbox" if "bbox" in img_meta[k] else "boundingBox"
            img_meta[k] = reform_bbox(
                img_meta[k][bbox_key], img.size, format=img_meta[k]["format"]
            )
    return img_meta


def reform_bbox(bbox, image_size, format="REL_XYXY"):
    w, h = image_size
    if format == "REL_XYXY":
        x1, y1, x2, y2 = bbox[0] * w, bbox[1] * h, bbox[2] * w, bbox[3] * h
    elif format == "REL_XYWH":
        x1, y1 = bbox[0] * w, bbox[1] * h
        x2, y2 = x1 + bbox[2] * w, y1 + bbox[3] * h
    else:
        raise NotImplementedError
    new_bbox = [[x1, y1], [x2, y1], [x2, y2], [x1, y2]]
    return new_bbox


def generate_random_color(use_alpha=True, seed=None):
    if seed is None:
        seed = np.random.default_rng()

    if use_alpha:
        color_list = [
            ("빨강", (255, 127, 127, 100)),
            ("노랑", (255, 255, 127, 100)),
            ("초록", (127, 255, 125, 100)),
            ("하늘", (127, 255, 255, 100)),
            ("파랑", (127, 127, 255, 100)),
            ("보라", (255, 127, 255, 100)),
        ]
    else:
        color_list = [
            ("빨강", (255, 0, 0)),
            ("노랑", (255, 255, 0)),
            ("초록", (0, 128, 0)),
            ("하늘", (135, 206, 235)),
            ("파랑", (0, 0, 255)),
            ("보라", (128, 0, 128)),
        ]
    return color_list[seed.integers(0, len(color_list))]


EN_COLOR = {
    "빨강": "red",
    "노랑": "yellow",
    "초록": "green",
    "하늘": "sky blue",
    "파랑": "blue",
    "보라": "purple",
}


def overlay_rectangle(image, words, lang, seed=None):
    color_str, color = generate_random_color(seed=seed)
    draw = ImageDraw.Draw(image, "RGBA")
    for word in words:
        shape_rect = word["bbox"]
        shape_rect = [(round(x[0]), round(x[1])) for x in shape_rect]
        draw.polygon(shape_rect, color)
    del draw
    if lang == "en":
        color_str = EN_COLOR[color_str]
    return image, color_str


def convert_tags_for_video(img, json):
    """video 데이터에는 <image_xx> 태그 대신 <video_00> tag가 있음.
    img 숫자 만큼 <video_00> tag 대신 <image_xx> tag를 변환하여 넣음
    """
    image_tag = "".join([f"<image_{idx:02d}>" for idx in range(len(img))])
    for json_key in json:
        if "qa_pairs" in json_key:
            new_qa_pairs = []
            for qa_pair in json[json_key]:
                question = qa_pair[0]
                question = question.replace("<video_00>", image_tag)
                new_qa_pairs.append([question, qa_pair[1]])
            json[json_key] = new_qa_pairs

    return img, json


def sampling_multiturn_single_img(
    seq,
    count,
    multiturn_preserve_order=True,
    multiturn_continuous=False,
    is_train: bool = True,
    seed=None,
):
    if seed is None:
        seed = np.random.default_rng()
    n_sample = min(count, len(seq))

    if multiturn_continuous:
        if len(seq) <= n_sample:
            start_index = 0
        else:
            start_index = seed.integers(0, len(seq) - n_sample)
        indices = range(start_index, start_index + n_sample)
    elif multiturn_preserve_order:
        indices = sorted(seed.choice(range(len(seq)), size=n_sample, replace=False))
    else:
        indices = seed.choice(range(len(seq)), size=n_sample, replace=False)

    return [seq[i] for i in indices]


def draw_bbox(image, bbox, lang="en", line_width=5, seed=None):
    if seed is None:
        seed = np.random.default_rng()
    color_str, color = generate_random_color(use_alpha=False, seed=seed)
    draw = ImageDraw.Draw(image, "RGB")
    rect_bbox = (bbox[0][0], bbox[0][1], bbox[2][0], bbox[2][1])
    draw.rectangle(rect_bbox, outline=color, width=line_width)
    del draw
    if lang == "en":
        color_str = EN_COLOR[color_str]
    return image, color_str


def bbox_process(bbox, detection_precision=2):
    bbox_str = "["
    for idx, point in enumerate(bbox):
        if idx % 2 == 0:
            normalized = point
        else:
            normalized = point

        if idx < len(bbox) - 1:
            bbox_str += format(normalized, ".2f") + ", "
        else:
            bbox_str += format(normalized, ".2f")
    bbox_str += "]"
    return bbox_str


def load_txt(file_path):
    lines_list = []
    with open(file_path, "r") as file:
        for line in file:
            lines_list.append(line.replace("\\n", "\n").strip())
    return lines_list


def convert_format_for_multi_image(
    img, json, convert_key_list=["words", "text", "objects", "entities"]
):
    """single image dataset 과 multi image dataset 에서 읽어온 img, json format 이 다름.
    따라서 single image dataset 에서 읽어온 img, json 을 multi image dataset 의 format (dict) 으로 convert
    """
    is_multi_image_dataset = isinstance(img, dict)
    if not is_multi_image_dataset:
        img = {"00": img}

        for convert_key in convert_key_list:
            if convert_key in json:
                json[convert_key] = {"00": json[convert_key]}

        for json_key in json:
            if "region" in json_key:
                json[json_key] = {"00": json[json_key]}
    else:
        for convert_key in convert_key_list:
            if convert_key in json:
                if isinstance(json[convert_key], list):
                    json[convert_key] = {"00": json[convert_key]}

        for json_key in json:
            if "region" in json_key:
                if isinstance(json[json_key], list):
                    json[json_key] = {"00": json[json_key]}

    return is_multi_image_dataset, img, json


class ConditionalError(Exception):
    def __init__(self, message="Our assertion error"):
        super().__init__(message)


def get_wds_default_config(default_config, existing_default_config=None):
    if existing_default_config is None:
        default_config_check_dict = {
            "subtask": "",
            "reasoning": False,
            "use_task_prompt": True,
            "get_random": True,
            "add_instruct_prompts": [],
            "multiturn_n_samples": 0,
            "multiturn_preserve_order": True,
            "multiturn_continuous": False,
            "insert_ocr": 200,
            "ocr_filter_strategy": "confidence",
            "ocr_use_ratio": 1.0,
            "entity_top_k": 0,
            "entity_keyword_threshold": 100,
            "entity_keyword_fashion_threshold": 100,
            "entity_use_ratio": 0.0,
            "llava_pretrain": False,
            "random_system_prob": 0.0,
            "random_system_path": "",
            "random_tool_prob": 0.005,
        }
    else:
        default_config_check_dict = existing_default_config
    if default_config is None:
        default_config = default_config_check_dict
    else:
        for key, value in default_config_check_dict.items():
            if key not in default_config:
                default_config[key] = value
    return default_config


def get_datalake_default_config(default_config):
    default_config_check_dict = {
        "multiturn_n_samples": 0,
        "multiturn_preserve_order": True,
        "multiturn_continuous": True,
        "insert_ocr": 0,
        "ocr_filter_strategy": "confidence",
        "entity_top_k": 0,
        "entity_keyword_threshold": 0,
        "entity_keyword_fashion_threshold": 0,
        "entity_use_ratio": 0.0,
        "ocr_use_ratio": 0.0,
        "llava_pretrain": False,
        "random_system_prob": 0.0,
        "random_system_path": "",
        "random_tool_prob": 0.005,
    }
    if default_config is None:
        default_config = default_config_check_dict
    else:
        for key, value in default_config_check_dict.items():
            if key not in default_config:
                default_config[key] = value
    return default_config


@dataclass
class Processed_sample:
    input_str: str = None
    input_ids: list = None
    label_ids: list = None
    imgs: list = None
    discrete_imgs: list = None
    videos: list = None
    videos_duration: List[dict] = None
    video_audios: list = None
    audios: list = None
    audios_duration: List[dict] = None
    discrete_audios: list = None
    sample_mm_counter: dict = None


from hcxvlm.dataset.bbox_processor import (
    extract_bboxes,
    insert_bboxes_to_json,
    is_bbox_padded,
)


class Preprocessor:
    prompt_head = ""
    va_prefix = "\n<|im_start|>"
    new_line = "\n"
    turn_prefix = "<|im_start|>"
    turn_suffix = "<|im_end|>"
    mime_start = "<|mime_start|>"
    mime_end = "<|mime_end|>"
    aux_img_start = "<|image_aux_start|>"
    aux_img_end = "<|image_aux_end|>"
    aux_video_start = "<|video_aux_start|>"
    aux_video_end = "<|video_aux_end|>"
    aux_audio_start = "<|audio_aux_start|>"
    aux_audio_end = "<|audio_aux_end|>"
    image_start = "<|image_start|>"
    image_end = "<|image_end|>"
    image_pad = "<|IMAGE_PAD|>"
    video_start = "<|video_start|>"
    video_end = "<|video_end|>"
    video_pad = "<|VIDEO_PAD|>"
    audio_start = "<|audio_start|>"
    audio_end = "<|audio_end|>"
    audio_pad = "<|AUDIO_PAD|>"
    discrete_image_start = "<|discrete_image_start|>"
    discrete_image_end = "<|discrete_image_end|>"
    discrete_image_pad = "<|DISCRETE_IMAGE_PAD|>"
    video_audio_pad = "<|VIDEO_AUDIO_PAD|>"
    discrete_audio_start = "<|discrete_audio_start|>"
    discrete_audio_end = "<|discrete_audio_end|>"
    discrete_audio_pad = "<|DISCRETE_AUDIO_PAD|>"

    discrete_image_eol = "<|vision_eol|>"
    discrete_image_eof = "<|vision_eof|>"
    discrete_image_ratios = {
        (1, 1): "<|vision_ratio_1:1|>",
        (1, 2): "<|vision_ratio_1:2|>",
        (2, 1): "<|vision_ratio_2:1|>",
        (3, 4): "<|vision_ratio_3:4|>",
        (4, 3): "<|vision_ratio_4:3|>",
        (3, 5): "<|vision_ratio_3:5|>",
        (5, 3): "<|vision_ratio_5:3|>",
        (4, 5): "<|vision_ratio_4:5|>",
        (5, 4): "<|vision_ratio_5:4|>",
        (6, 9): "<|vision_ratio_6:9|>",
        (9, 6): "<|vision_ratio_9:6|>",
        (9, 16): "<|vision_ratio_9:16|>",
        (16, 9): "<|vision_ratio_16:9|>",
    }

    aux_vid_prompt = (
        "다음 중 video_duration은 비디오 길이 정보입니다. 참고하여 답변하세요. "
    )
    aux_audio_prompt = (
        "다음 중 audio_duration은 오디오 길이 정보입니다. 참고하여 답변하세요. "
    )

    def __init__(
        self,
        tokenizer=None,
        prepare_input_fn=None,
        prepare_audio_input_fn=None,
        sample_min_length=0,
        decoder_max_length=None,
        mode="train",
        model=None,
        datalake_default_config=None,
        wds_default_config=None,
        video_config=None,
        train_video=False,
        train_audio=False,
        sequence_parallel_size=1,
        video_audio_compressor_type=None,
    ):
        self.sequence_parallel_size = sequence_parallel_size
        if sequence_parallel_size > 1:
            self.rng = np.random.default_rng(seed=42)
        else:
            self.rng = np.random.default_rng()

        if model is not None:
            tokenizer = model.tokenizer
            decoder_max_length = 16000

        if model is not None and prepare_input_fn is None:
            raise "please give ImageProcessor!"

        self.prepare_input_fn = prepare_input_fn
        self.prepare_audio_input_fn = prepare_audio_input_fn
        try:
            from transformers.models.qwen2_5_vl.processing_qwen2_5_vl import (
                Qwen2_5_VLProcessor,
            )

            self.is_qwen_visual = isinstance(prepare_input_fn, Qwen2_5_VLProcessor)
        except Exception as e:
            self.is_qwen_visual = False
        try:
            if not self.is_qwen_visual:
                from hcxvlm.models.processing_vlm import HCXVisionV2Processor

                self.is_qwen_visual = isinstance(prepare_input_fn, HCXVisionV2Processor)
        except Exception as e:
            self.is_qwen_visual = False
        assert self.is_qwen_visual, "qwen2.5-vl visual prepare_input_fn import error"

        self.video_max_num_frames = (
            video_config["video_max_num_frames"]
            if video_config and "video_max_num_frames" in video_config
            else 120
        )
        self.video_max_pixels = (
            video_config["video_max_pixels"]
            if video_config and "video_max_pixels" in video_config
            else 378 * 378
        )

        self.tokenizer = tokenizer
        self.sample_min_length = sample_min_length
        self.decoder_max_length = decoder_max_length
        self.mode = mode
        self.default_config = get_datalake_default_config(datalake_default_config)
        self.wds_default_config = get_wds_default_config(wds_default_config)
        self.train_video = train_video
        self.train_audio = train_audio
        self.video_audio_compressor_type = video_audio_compressor_type

        self.img_token = self.tokenizer.encode(Preprocessor.image_pad)[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.image_pad)) == 1
        ), "img_token is not configured in tokenizer"

        self.discrete_image_token = self.tokenizer.encode(
            Preprocessor.discrete_image_pad
        )[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.discrete_image_pad)) == 1
        ), "discrete_image_token is not configured in tokenizer"

        self.discrete_image_eol_token = self.tokenizer.encode(
            Preprocessor.discrete_image_eol
        )[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.discrete_image_eol)) == 1
        ), "discrete_image_eol_token is not configured in tokenizer"

        self.discrete_image_eof_token = self.tokenizer.encode(
            Preprocessor.discrete_image_eof
        )[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.discrete_image_eof)) == 1
        ), "discrete_image_eof_token is not configured in tokenizer"

        self.discrete_image_ratio_tokens = dict()
        for ratio, token_str in Preprocessor.discrete_image_ratios.items():
            token_id = self.tokenizer.encode(token_str)[0]
            assert (
                len(self.tokenizer.encode(token_str)) == 1
            ), f"discrete_image_ratio_token {token_str} is not configured in tokenizer"
            self.discrete_image_ratio_tokens[ratio] = token_id

        self.video_token = self.tokenizer.encode(Preprocessor.video_pad)[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.video_pad)) == 1
        ), "video_token is not configured in tokenizer"

        self.video_audio_token = self.tokenizer.encode(Preprocessor.video_audio_pad)[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.video_audio_pad)) == 1
        ), "video_audio_token is not configured in tokenizer"

        def resize_min_edge(img: Image.Image) -> Image.Image:
            w, h = img.size
            min_size = 28
            if min(w, h) >= min_size:
                return img
            if w < h:
                new_w = min_size
                new_h = int(h * (min_size / w))
            else:
                new_h = min_size
                new_w = int(w * (min_size / h))
            return img.resize((new_w, new_h), Image.BICUBIC)

        self._resize_min_edge = resize_min_edge

        self.audio_token = self.tokenizer.encode(Preprocessor.audio_pad)[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.audio_pad)) == 1
        ), "audio_token is not configured in tokenizer"

        self.discrete_audio_token = self.tokenizer.encode(
            Preprocessor.discrete_audio_pad
        )[0]
        assert (
            len(self.tokenizer.encode(Preprocessor.discrete_audio_pad)) == 1
        ), "audio_token is not configured in tokenizer"

        from hcxvlm.dataset.json_processer import generate_prompt

        self.generate_prompt = generate_prompt

        self.mimes = list()
        for mime_filename in [
            "words_alpha.txt",
            "korean-366506-wordslistUnique.txt",
        ]:
            self.mimes += (
                pkg_resources.resource_string(
                    "hcxvlm", f"dataset/hcx_vision_prompter/prompts/{mime_filename}"
                )
                .decode("utf-8")
                .split("\r\n")
            )

        self.common_tools = []
        try:
            common_tools_bytes = pkg_resources.resource_string(
                "hcxvlm",
                "dataset/hcx_vision_prompter/prompts/common_tools.jsonl",
            )
            for line in common_tools_bytes.decode("utf-8").splitlines():
                line = line.strip()
                if not line:
                    continue
                try:
                    self.common_tools.append(json.loads(line))
                except Exception:
                    continue
        except Exception:
            self.common_tools = []

        self.random_system_prompt = ""
        if self.default_config["random_system_path"] != "":
            self.random_system_prompt = ""
            with open(self.default_config["random_system_path"], "r") as f:
                for line in f:
                    self.random_system_prompt += line

        if (
            self.random_system_prompt != ""
            and self.wds_default_config["random_system_path"] != ""
        ):
            assert (
                self.wds_default_config["random_system_path"]
                == self.default_config["random_system_path"]
            ), "random_system_path in both default_config and wds_default_config should be the same"

    def _find_best_ratio_token(self, original_size):
        """Find the best ratio token based on original_size"""
        base_ratios = list(self.discrete_image_ratio_tokens.keys())
        vision_aspect_ratios = [
            r for ratio in base_ratios for r in [ratio, ratio[::-1]]
        ][1:]

        if not isinstance(original_size, list) or len(original_size) != 2:
            return self.discrete_image_ratio_tokens[(1, 1)]

        h, w = original_size
        if h == 0 or w == 0:
            return self.discrete_image_ratio_tokens[(1, 1)]

        ratios = [i / j for i, j in vision_aspect_ratios]

        best_size_idx = np.argmin([abs(w / h - r) for r in ratios])

        i, j = vision_aspect_ratios[best_size_idx]
        return self.discrete_image_ratio_tokens[(i, j)]

    @classmethod
    def prompt_mime(
        cls,
        mimes: Optional[list[str]] = None,
        file_name: str = None,
        tag_idx: int = 1,
        fixed_mime: bool = False,
        is_video: bool = False,
        is_audio: bool = False,
        seed: np.random.Generator = None,
    ) -> list[dict]:
        assert mimes or file_name

        if seed is None:
            seed = np.random.default_rng()

        if file_name:
            name, ext = os.path.splitext(file_name)
            ext = ext.lstrip(".")
        elif fixed_mime:
            ext = "jpeg"
            name = mimes[tag_idx]
        elif not fixed_mime and seed is not None:
            ext = seed.choice(["png", "jpeg"])
            name = mimes[seed.integers(0, len(mimes))]
        else:
            ext = "jpeg"
            name = mimes[tag_idx]

        if is_video:
            ext_candidates = ["mp4", "mov", "avi", "webm"]
            if fixed_mime:
                ext = "mp4"
            elif ext not in ext_candidates:
                ext = seed.choice(ext_candidates)

            filename = f"{name}.{ext}"
            mime_type = mimetypes.guess_type(filename)[0]
            mime_prompt = {
                "id": f"video_{str(tag_idx).zfill(2)}",
                "type": f"{mime_type}",
                "filename": f"{filename}",
            }
            return mime_prompt

        if is_audio:
            ext_candidates = ["mp3", "wav", "aac", "flac", "pcm"]
            if fixed_mime:
                ext = "wav"
            elif ext not in ext_candidates:
                ext = seed.choice(ext_candidates)

            filename = f"{name}.{ext}"
            mime_type = mimetypes.guess_type(filename)[0]
            mime_prompt = {
                "id": f"audio_{str(tag_idx).zfill(2)}",
                "type": f"{mime_type}",
                "filename": f"{filename}",
            }
            return mime_prompt

        if file_name:
            filename = f"{name}.{ext}"
            mime_type = mimetypes.guess_type(filename)[0]
            mime_prompt = {
                "id": f"image_{str(tag_idx).zfill(2)}",
                "type": f"{mime_type}",
                "filename": f"{filename}",
            }
        else:
            mime_prompt = {
                "id": f"image_{str(tag_idx).zfill(2)}",
                "type": f"image/{ext}",
                "filename": f"{name}.{'jpg' if ext == 'jpeg' else 'png'}",
            }
        return mime_prompt

    @classmethod
    def ocr_preprocess(
        cls,
        words: list[dict],
        n_insert_ocr_tokens: int = 2000,
        insert_ocr: int = 200,
        ocr_use_ratio: float = 0.5,
        tokenizer=None,
        seed=None,
    ) -> list[str]:
        if seed is None:
            seed = np.random.default_rng()
        if ocr_use_ratio < seed.random():
            return None
        if insert_ocr == 0:
            return None

        confidence_list = []
        insert_ocr_prompt = []
        for word in words:
            if "confidence" in word:
                confidence_list.append(word["confidence"])
        has_ocr_confidence = len(confidence_list) >= insert_ocr

        if len(words) <= insert_ocr or not has_ocr_confidence:
            insert_ocr_prompt += [
                d["text"].strip() for d in words if d["text"].strip()
            ][:insert_ocr]
        else:
            confidence_threshold = 0.3
            cnt = 0
            for word in words:
                if word["text"] == "":
                    continue
                if word["confidence"] >= confidence_threshold:
                    insert_ocr_prompt.append(word["text"])
                    cnt += 1
                if cnt >= insert_ocr:
                    break
        ocr_inputs = " ".join(insert_ocr_prompt)
        if tokenizer:
            ocr_inputs = tokenizer.decode(
                tokenizer.encode(ocr_inputs)[:n_insert_ocr_tokens]
            )
        return ocr_inputs

    @classmethod
    def lens_preprocess(
        cls,
        lens: list[dict],
        entity_top_k: int = 100,
        entity_keyword_threshold: float = 0.0,
        entity_keyword_fashion_threshold: float = 0.0,
        entity_use_ratio: float = 0.0,
        seed=None,
    ):
        if seed is None:
            seed = np.random.default_rng()
        if seed.uniform(0, 1) > entity_use_ratio:
            return None

        entities = lens
        filter_idx = []
        insert_entity_prompt = {}
        for idx, entity in enumerate(entities):
            if entity["type"] != "naver_lens_api":
                filter_idx.append(idx)
                continue
            if (
                isinstance(entity_keyword_threshold, (int, float))
                and entity["confidence"] < entity_keyword_threshold
            ):
                filter_idx.append(idx)
                continue
            if (
                isinstance(entity_keyword_fashion_threshold, (int, float))
                and ("fashion" in entity["info"]["classes"])
                and entity["confidence"] < entity_keyword_fashion_threshold
            ):
                filter_idx.append(idx)
                continue

        entityvalue = [
            keyword for idx, keyword in enumerate(entities) if idx not in filter_idx
        ]
        entityvalue = sorted(entityvalue, key=lambda x: x["confidence"], reverse=True)

        important_entity_list = []
        local_entity_str_list = []
        keywords_and_bbox_per_detector = {}
        for keyword_dict in entityvalue[:entity_top_k]:
            object_class = "/".join(keyword_dict["info"]["classes"])
            if object_class not in keywords_and_bbox_per_detector.keys():
                keywords_and_bbox_per_detector[object_class] = []
            keywords_and_bbox_per_detector[object_class].append(keyword_dict)

        for object_class in keywords_and_bbox_per_detector.keys():
            entities_per_object = keywords_and_bbox_per_detector[object_class]
            normalized_bbox = bbox_process(
                [*entities_per_object[0]["bbox"][0], *entities_per_object[0]["bbox"][2]]
            )
            entities = [entity["text"] for entity in entities_per_object]
            if "context" in object_class:
                important_entity_list += entities

            else:
                local_entity_str_list += [
                    str(normalized_bbox) + " " + ", ".join(entities)
                ]
        if len(important_entity_list) > 0:
            insert_entity_prompt["lens_keywords"] = ", ".join(important_entity_list)
        if len(local_entity_str_list) > 0:
            insert_entity_prompt["lens_local_keywords"] = " ".join(
                local_entity_str_list
            )

        return insert_entity_prompt

    @classmethod
    def prompt_toollist(
        cls,
        output,
        tokenizer=None,
        turn: Optional[dict] = None,
        content: Optional[list[dict]] = None,
    ):
        assert content or turn
        if turn is None:
            turn = {
                "role": "tool_list",
                "content": content,
            }

        toollist_str = (
            cls.turn_prefix.strip()
            + turn["role"]
            + "\n"
            + turn["content"]
            + cls.turn_suffix
        )

        if hasattr(output, "input_str"):
            output.input_str += toollist_str

        if getattr(output, "input_ids", None) is not None:
            token_ids = tokenizer.encode(toollist_str, truncation=False)
            output.input_ids += token_ids
            output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]
        return output

    @classmethod
    def prompt_system(
        cls,
        output,
        tokenizer=None,
        turn: Optional[dict] = None,
        content: Optional[str] = None,
        seed=None,
        tool_prompt=None,
        system_role_count=0,
    ):
        assert content or turn
        if seed is None:
            seed = np.random.default_rng()
        if turn is None:
            system_prompt = content
        else:
            if "candidates" in turn:
                if len(turn["candidates"]) > 0:
                    system_prompt = seed.choice(turn["candidates"])
                    if type(system_prompt) is dict:
                        system_prompt = system_prompt["content"]
                else:
                    system_prompt = ""
            elif isinstance(turn["content"], str):
                system_prompt = turn["content"]
            elif len(turn["content"]) > 0:
                system_prompt = seed.choice(turn["content"])

        system_str = cls.turn_prefix + turn["role"] + "\n"
        system_str += system_prompt.strip()
        if system_role_count == 0:
            if system_prompt.strip():
                system_str += "\n"
            system_str += tool_prompt
        system_str += cls.turn_suffix

        if hasattr(output, "input_str"):
            output.input_str += system_str

        if getattr(output, "input_ids", None) is not None:
            token_ids = tokenizer.encode(system_str, truncation=False)
            output.input_ids += token_ids
            output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]
        return output

    @classmethod
    def load_mm(
        cls,
        output,
        img_dir: str = "",
        turn: Optional[dict] = None,
        image_urls: Optional[list[str]] = None,
        image_metas: Optional[list[dict]] = None,
        video_urls: Optional[list[str]] = None,
        video_metas: Optional[list[dict]] = None,
        audio_urls: Optional[list[str]] = None,
        audio_metas: Optional[list[dict]] = None,
        prepare_input_fn=None,
        prepare_audio_input_fn=None,
        max_image_cnt=21,
        video_max_num_frames=None,
        video_max_pixels=None,
        use_audio: bool = False,
        audio_sample_rate: int = 16000,
    ):
        assert (image_urls or video_urls or audio_urls) or turn
        if turn is None:
            turn = {}
            if image_urls:
                turn.update({"image_urls": image_urls})
                turn.update({"image_metas": image_metas})
            if video_urls:
                turn.update({"video_urls": video_urls})
                turn.update({"video_metas": video_metas})
            if audio_urls:
                turn.update({"audio_urls": audio_urls})
                turn.update({"audio_metas": audio_metas})

        if "video_urls" in turn:
            if len(turn["video_urls"]) and (prepare_input_fn is None):
                raise ConditionalError("video processing needs 'prepare_input_fn'")

        if not isinstance(turn["content"], str):
            raise ConditionalError(f"turn['content'] must be a string")

        turn["content"] = re.sub(r"<image_\d+>", "<|image|>", turn["content"])
        pattern = re.compile(
            r"<\|video\|>|<\|image\|>|<\|t2i_model_generation_target_discrete_image\|>|<\|audio\|>|<\|discrete_audio\|>"
        )
        tags = [match.group() for match in pattern.finditer(turn["content"])]

        img_idx = 0
        vid_idx = 0
        aud_idx = 0

        if "image_urls" not in turn:
            turn["image_urls"] = []
        if "video_urls" not in turn:
            turn["video_urls"] = []
        if "audio_urls" not in turn:
            turn["audio_urls"] = []

        for tag in tags:
            if (
                tag == "<|image|>"
                or tag == "<|t2i_model_generation_target_discrete_image|>"
            ):
                img_path = turn["image_urls"][img_idx]

                if isinstance(img_path, str):
                    if "#" in img_path:
                        compression_path, img_path = img_path.split("#", 1)
                        compression_path = os.path.join(img_dir, compression_path)
                        assert compression_path[-4:] in [
                            ".zip",
                            ".tar",
                        ], f"unsupported compression format: {compression_path}"

                        with open(compression_path, "rb") as comp_file:
                            if compression_path.endswith(".zip"):
                                with zipfile.ZipFile(comp_file, "r") as zip_file:
                                    with zip_file.open(img_path) as img_file:
                                        img_binary = img_file.read()
                            elif compression_path.endswith(".tar"):
                                with tarfile.open(
                                    fileobj=comp_file, mode="r"
                                ) as tar_file:
                                    img_file = tar_file.extractfile(img_path)
                                    img_binary = img_file.read()
                    else:
                        with open(os.path.join(img_dir, img_path), "rb") as f:
                            img_binary = f.read()
                    img = image_decoder(img_binary)
                else:
                    if isinstance(img_path, (bytes, bytearray)):
                        img = io.BytesIO(img_path)
                        img = Image.open(img).convert("RGB")
                    else:
                        img = img_path
                if not isinstance(img, Image.Image):
                    img = Image.fromarray(np.uint8(img)).convert("RGB")

                if "image_metas" in turn and turn["image_metas"]:
                    turn["image_metas"][img_idx] = convert_bboxes(
                        img, turn["image_metas"][img_idx]
                    )

                if tag == "<|image|>":
                    output.imgs.append(img)
                output.discrete_imgs.append(img)

                img_idx += 1
            elif tag == "<|video|>":
                video_path = turn["video_urls"][vid_idx]
                if isinstance(video_path, str):
                    if "#" in video_path:
                        compression_path, video_path = video_path.split("#", 1)
                        compression_path = os.path.join(img_dir, compression_path)
                        assert compression_path[-4:] in [
                            ".zip",
                            ".tar",
                        ], f"unsupported compression format: {compression_path}"

                        with open(compression_path, "rb") as comp_file:
                            if compression_path.endswith(".zip"):
                                with zipfile.ZipFile(comp_file, "r") as zip_file:
                                    video_file = zip_file.open(video_path)
                                    video_binary = video_file.read()
                            elif compression_path.endswith(".tar"):
                                with tarfile.open(
                                    fileobj=comp_file, mode="r"
                                ) as tar_file:
                                    video_file = tar_file.extractfile(video_path)
                                    video_binary = video_file.read()
                    else:
                        with open(os.path.join(img_dir, video_path), "rb") as f:
                            video_binary = f.read()
                    video_binary = io.BytesIO(video_binary)
                else:
                    video_binary = video_path

                assert isinstance(video_binary, io.BytesIO), "video binary read error"

                try:
                    from hcxvlm.dataset.qwen_vision_process import process_vision_info
                except:
                    from qwen_vl_utils import process_vision_info

                if video_max_num_frames is None:
                    video_max_num_frames = 120
                if video_max_pixels is None:
                    video_max_pixels = 378 * 378

                messages = [
                    [
                        {
                            "role": "user",
                            "content": [
                                {
                                    "type": "video",
                                    "video": video_binary,
                                    "max_frames": video_max_num_frames,
                                    "max_pixels": video_max_pixels,
                                }
                            ],
                        }
                    ],
                ]
                _, videos, video_kwargs = process_vision_info(
                    messages,
                    return_video_kwargs=True,
                    use_audio=use_audio,
                    audio_sample_rate=audio_sample_rate,
                )
                output.videos.append(videos[0])
                video_len = round(videos[0].shape[0] / video_kwargs["fps"][0], 2)
                output.videos_duration.append(
                    {
                        "video_duration": f"{video_len}s",
                    }
                )

                if use_audio and "audio_chunks" in video_kwargs:
                    audio_chunks = video_kwargs["audio_chunks"][0]
                    if audio_chunks is not None:
                        output.video_audios.append(audio_chunks)
                    else:
                        output.video_audios.append([])
                elif use_audio:
                    output.video_audios.append([])

                vid_idx += 1

            elif tag == "<|audio|>" or tag == "<|discrete_audio|>":
                audio_path = turn["audio_urls"][aud_idx]
                if isinstance(audio_path, str):
                    if "#" in audio_path:
                        compression_path, inner_path = audio_path.split("#", 1)
                        compression_path = os.path.join(img_dir, compression_path)
                        assert compression_path[-4:] in [
                            ".zip",
                            ".tar",
                        ], f"unsupported compression format: {compression_path}"
                        with open(compression_path, "rb") as comp_file:
                            if compression_path.endswith(".zip"):
                                with zipfile.ZipFile(comp_file, "r") as zip_file:
                                    with zip_file.open(inner_path) as audio_file:
                                        audio_binary = audio_file.read()
                            elif compression_path.endswith(".tar"):
                                with tarfile.open(
                                    fileobj=comp_file, mode="r"
                                ) as tar_file:
                                    audio_file = tar_file.extractfile(inner_path)
                                    audio_binary = audio_file.read()
                    else:
                        with open(os.path.join(img_dir, audio_path), "rb") as f:
                            audio_binary = f.read()
                    audio_stream = io.BytesIO(audio_binary)
                else:
                    if isinstance(audio_path, (bytes, bytearray)):
                        audio_stream = io.BytesIO(audio_path)
                    else:
                        audio_stream = audio_path

                try:
                    import librosa

                    y, sr = librosa.load(
                        audio_stream, sr=DEFAULT_SAMPLE_RATE, mono=True
                    )
                    assert (
                        DEFAULT_SAMPLE_RATE == sr
                    ), f"librosa resampling failed: {DEFAULT_SAMPLE_RATE} != {sr}"
                except Exception as e:
                    raise ConditionalError(
                        f"audio decoding failed for {audio_path}: {e}"
                    )

                audio_duration = len(y) / sr
                if audio_duration < 0.5:
                    raise ConditionalError(
                        f"Audio too short ({audio_duration:.2f}s). Minimum 0.5s required."
                    )
                if audio_duration > 600:
                    raise ConditionalError(
                        f"Audio duration ({audio_duration:.2f}s) exceeds maximum allowed duration (600s)"
                    )

                if len(y) < MIN_DISCRETE_AUDIO_CHUNK_SAMPLES:
                    raise ConditionalError(
                        f"Audio too short ({len(y)} samples = {audio_duration:.4f}s < 0.1s). "
                        f"Minimum {MIN_DISCRETE_AUDIO_CHUNK_SAMPLES} samples required for CosyVoice encoder."
                    )

                if not hasattr(output, "audios"):
                    output.audios = []
                if not hasattr(output, "discrete_audios"):
                    output.discrete_audios = []

                normalized_y = hpf_normalize(y)
                normalized_y = torch.from_numpy(normalized_y).float()

                output.discrete_audios.append(normalized_y)
                if tag == "<|audio|>":

                    output.audios.append(y)
                    total_duration = len(y) / sr
                    output.audios_duration.append(
                        {
                            "duration": f"{(total_duration):.2f}s",
                        }
                    )

                aud_idx += 1
            else:
                raise ConditionalError(
                    f"{tag} is not in ['<|image|>', '<|video|>', '<|audio|>']"
                )

        return output

    @classmethod
    def prompt_user(
        cls,
        output,
        tokenizer=None,
        turn: Optional[dict] = None,
        content: Optional[str] = None,
        is_train=False,
        fixed_mime=False,
        insert_ocr=300,
        file_names: Optional[list[str]] = None,
        mimes: Optional[list[str]] = None,
        mm_tokens: Optional[list[str]] = None,
        words: Optional[list] = None,
        lens: Optional[list] = None,
        query_template: Optional[list[str]] = None,
        config: Optional[dict] = None,
        seed: np.random.Generator = None,
    ):
        assert content or turn
        if turn is None:
            image_metas = [
                {"words": words[i], "lens": lens[i]} for i in range(len(words))
            ]
            turn = {
                "content": content,
                "image_metas": image_metas,
            }
        if seed is None:
            seed = np.random.default_rng()

        turn["content"] = re.sub(r"<image_\d+>", "<|image|>", turn["content"])
        turn["content"] = re.sub(r"<video_\d+>", "<|video|>", turn["content"])
        turn["content"] = re.sub(r"<audio_\d+>", "<|audio|>", turn["content"])

        pattern = re.compile(r"(<\|video\|>|<\|image\|>|<\|audio\|>)")

        all_tags_in_order = [
            match.group() for match in pattern.finditer(turn["content"])
        ]
        n_vids = sum(1 for tag in all_tags_in_order if tag == "<|video|>")
        n_audios = sum(1 for tag in all_tags_in_order if tag == "<|audio|>")

        assert (
            len(turn.get("image_urls", []))
            + len(turn.get("video_urls", []))
            + len(turn.get("audio_urls", []))
        ) == len(
            all_tags_in_order
        ), f"Number of media URLs does not match number of media tags."

        if mm_tokens is None:
            mm_tokens = [
                cls.audio_pad if tag == "<|audio|>" else cls.image_pad
                for tag in all_tags_in_order
            ]

        assert len(mm_tokens) == len(all_tags_in_order)

        if config.get("llava_pretrain", False):
            mm_str = "".join([mm_tokens[i] for i in range(len(all_tags_in_order))])
            if hasattr(output, "input_str"):
                output.input_str += mm_str

            if getattr(output, "input_ids", None) is not None:
                token_ids = tokenizer.encode(mm_str, truncation=False)
                output.input_ids += token_ids
                output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]
            return output

        if query_template:
            processed_content = seed.choice(query_template).format(turn["content"])

            tags_after_template = pattern.findall(processed_content)
            if len(all_tags_in_order) != len(tags_after_template):
                cleaned_template_text = pattern.sub("", processed_content)
                processed_content = "".join(all_tags_in_order) + cleaned_template_text
            turn["content"] = processed_content

        content_parts = pattern.split(turn["content"].strip())

        if hasattr(output, "input_str"):
            output.input_str += f"{cls.new_line}{cls.turn_prefix}{turn['role']}"
        if getattr(output, "input_ids", None) is not None:
            role_encoded = tokenizer.encode(
                f"{cls.new_line}{cls.turn_prefix}{turn['role']}", truncation=False
            )
            output.input_ids += role_encoded
            if turn.get("trainable_role", False):
                output.label_ids += role_encoded
            else:
                output.label_ids += [IGNORE_INDEX for _ in range(len(role_encoded))]

        tag_cursor = 0

        for part in content_parts:
            part = part.strip()

            if not part:
                continue

            if part not in ["<|image|>", "<|video|>", "<|audio|>"]:
                content_text = part

                if hasattr(output, "input_str"):
                    output.input_str += "\n" + content_text
                if getattr(output, "input_ids", None) is not None:
                    content_encoded = tokenizer.encode(
                        "\n" + content_text, truncation=False
                    )
                    output.input_ids += content_encoded
                    if turn.get("trainable_content", False):
                        output.label_ids += content_encoded
                    else:
                        output.label_ids += [
                            IGNORE_INDEX for _ in range(len(content_encoded))
                        ]
                continue

            if part == "<|image|>":
                mime = Preprocessor.prompt_mime(
                    mimes=mimes if not file_names else None,
                    fixed_mime=fixed_mime if not file_names else False,
                    file_name=file_names[tag_cursor] if file_names else None,
                    tag_idx=output.sample_mm_counter["image"],
                    is_video=False,
                    is_audio=False,
                    seed=seed,
                )
                mime_str = f"{cls.mime_start}{json.dumps(mime, ensure_ascii=False)}{cls.mime_end}"
                discrete_image_str = f"{cls.discrete_image_start}{cls.discrete_image_pad}{cls.discrete_image_end}"
                vector_str = f"{cls.image_start}{cls.image_pad}{cls.image_end}"
                mm_str = (
                    cls.new_line
                    + mime_str
                    + cls.new_line
                    + discrete_image_str
                    + cls.new_line
                    + vector_str
                )

                if hasattr(output, "input_str"):
                    output.input_str += mm_str
                if getattr(output, "input_ids", None) is not None:
                    token_ids = tokenizer.encode(mm_str, truncation=False)
                    output.input_ids += token_ids
                    output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]

                output.sample_mm_counter["image"] += 1
                tag_cursor += 1

            elif part == "<|video|>":
                mime = Preprocessor.prompt_mime(
                    mimes=mimes if not file_names else None,
                    fixed_mime=fixed_mime if not file_names else False,
                    file_name=file_names[tag_cursor] if file_names else None,
                    tag_idx=output.sample_mm_counter["video"],
                    is_video=True,
                    is_audio=False,
                    seed=seed,
                )
                mm_str = ""
                aux_inputs = {
                    "video_duration": output.videos_duration[
                        output.sample_mm_counter["video"]
                    ]["video_duration"],
                }
                mime_str = f"{cls.mime_start}{json.dumps(mime, ensure_ascii=False)}{cls.mime_end}"
                aux_str = f"{cls.aux_video_start}{cls.aux_vid_prompt}{json.dumps(aux_inputs, ensure_ascii=False)}{cls.aux_video_end}"
                vector_str = f"{cls.video_start}{cls.video_pad}{cls.video_end}"
                mm_str += (
                    cls.new_line
                    + mime_str
                    + cls.new_line
                    + aux_str
                    + cls.new_line
                    + vector_str
                )
                if hasattr(output, "input_str"):
                    output.input_str += mm_str
                if getattr(output, "input_ids", None) is not None:
                    token_ids = tokenizer.encode(mm_str, truncation=False)
                    output.input_ids += token_ids
                    output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]
                output.sample_mm_counter["video"] += 1
                tag_cursor += 1

            elif part == "<|audio|>":
                mime = Preprocessor.prompt_mime(
                    mimes=mimes if not file_names else None,
                    fixed_mime=fixed_mime if not file_names else False,
                    file_name=file_names[tag_cursor] if file_names else None,
                    tag_idx=output.sample_mm_counter["audio"],
                    is_video=False,
                    is_audio=True,
                    seed=seed,
                )
                mm_str = ""
                aux_inputs = {
                    "audio_duration": output.audios_duration[
                        output.sample_mm_counter["audio"]
                    ]["duration"],
                }
                mime_str = f"{cls.mime_start}{json.dumps(mime, ensure_ascii=False)}{cls.mime_end}"
                aux_str = f"{cls.aux_audio_start}{cls.aux_audio_prompt}{json.dumps(aux_inputs, ensure_ascii=False)}{cls.aux_audio_end}"
                discrete_audio_str = f"{cls.discrete_audio_start}{cls.discrete_audio_pad}{cls.discrete_audio_end}"
                vector_str = f"{cls.audio_start}{cls.audio_pad}{cls.audio_end}"
                mm_str += (
                    cls.new_line
                    + mime_str
                    + cls.new_line
                    + aux_str
                    + cls.new_line
                    + discrete_audio_str
                    + cls.new_line
                    + vector_str
                )
                if hasattr(output, "input_str"):
                    output.input_str += mm_str
                if getattr(output, "input_ids", None) is not None:
                    token_ids = tokenizer.encode(mm_str, truncation=False)
                    output.input_ids += token_ids
                    output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]

                output.sample_mm_counter["audio"] += 1
                tag_cursor += 1

        if hasattr(output, "input_str"):
            output.input_str += cls.turn_suffix

        if getattr(output, "input_ids", None) is not None:
            token_ids = tokenizer.encode(cls.turn_suffix, truncation=False)
            output.input_ids += token_ids
            output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]

        return output

    @classmethod
    def prompt_assistant(
        cls,
        output,
        tokenizer=None,
        turn: Optional[dict] = None,
        role: Optional[str] = "assistant",
        content: Optional[str] = None,
        is_last_turn=False,
        is_eval=True,
        is_llava_pretrain=False,
        is_after_last_user_turn=False,
    ):
        assert content or turn
        if turn is None:
            turn = {
                "content": content,
                "role": role,
            }

        if is_llava_pretrain:
            if hasattr(output, "input_str"):
                output.input_str += turn["content"]
            if getattr(output, "input_ids", None) is not None:
                content_encoded = tokenizer.encode(turn["content"], truncation=False)
                output.input_ids += content_encoded
                output.label_ids += content_encoded
            return output

        reasoning_content = turn.get("reasoning_content", "")
        if (
            not reasoning_content
            and isinstance(turn["content"], str)
            and "</think>" in turn["content"]
        ):
            parts = turn["content"].split("</think>", 1)
            reasoning_content = parts[0].split("<think>", 1)[-1].lstrip("\n")
            turn["content"] = parts[1].lstrip("\n")

        if is_after_last_user_turn and (is_last_turn or reasoning_content):
            content_to_strip = turn.get("content") or ""
            stripped_content = content_to_strip.lstrip("\n")

            if reasoning_content is None:
                reasoning_content = ""
            turn["content"] = (
                f"<think>\n{reasoning_content.strip()}\n</think>\n\n{stripped_content}"
            )

        if turn.get("tool_calls"):
            for tool_call in turn["tool_calls"]:
                func_name = tool_call.get("function", {}).get("name", "")
                args = tool_call.get("function", {}).get("arguments", {})

                if isinstance(args, str):
                    try:
                        args = json.loads(args)
                    except Exception:
                        pass
                if not isinstance(args, dict):
                    print(
                        f"[error] tool_call.function.arguments가 dict이 아님: type={type(args)}, value={str(args)}"
                    )
                    assert (
                        False
                    ), "tool_call.function.arguments는 dict이거나 dict를 나타내는 JSON 문자열이어야 합니다."

                tool_turn_content = f"\n<tool_call>{func_name}\n"

                for key, value in args.items():
                    arg_value = (
                        json.dumps(value, ensure_ascii=False)
                        if not isinstance(value, str)
                        else value
                    )
                    tool_turn_content += f"<arg_key>{key}</arg_key>\n<arg_value>{arg_value}</arg_value>\n"
                tool_turn_content += "</tool_call>"

                if func_name == "t2i_model_generation":
                    assert (
                        "<|t2i_model_generation_target_discrete_image|>"
                        in turn["content"]
                    ), "t2i_model_generation tool call must have target discrete image tag in content."
                    turn["content"] = turn["content"].replace(
                        "<|t2i_model_generation_target_discrete_image|>",
                        tool_turn_content,
                    )
                else:
                    turn["content"] += tool_turn_content

        pattern = re.compile(
            r"(<\|image\|>|<\|discrete_image\|>|<\|audio\|>|<\|discrete_audio\|>)"
        )
        all_tags_in_order = [
            match.group() for match in pattern.finditer(turn["content"])
        ]

        assert (
            len(turn.get("image_urls", []))
            + len(turn.get("video_urls", []))
            + len(turn.get("audio_urls", []))
        ) == len(
            all_tags_in_order
        ), f"Number of media URLs does not match number of media tags."

        if hasattr(output, "input_str"):
            output.input_str += f"{cls.new_line}{cls.turn_prefix}{turn['role']}"
            if is_eval and is_last_turn:
                if reasoning_content.strip() == "":
                    output.input_str += f"<think>\n\n</think>\n\n"
                    turn["content"] = stripped_content
            else:
                output.input_str += f"{turn['content']}{cls.turn_suffix}"

        if getattr(output, "input_ids", None) is not None:
            role_encoded = tokenizer.encode(
                f"{cls.new_line}{cls.turn_prefix}{turn['role']}", truncation=False
            )
            output.input_ids += role_encoded

            if is_eval and is_last_turn:
                if reasoning_content.strip() == "":
                    output.input_ids += tokenizer.encode(
                        f"<think>\n\n</think>\n\n", truncation=False
                    )
                    turn["content"] = stripped_content
            else:
                if turn.get("trainable_role", True):
                    output.label_ids += role_encoded
                else:
                    output.label_ids += [IGNORE_INDEX for _ in range(len(role_encoded))]

                turn_img_idx = 0
                content_parts = pattern.split(turn["content"].strip())
                for part in content_parts:
                    part = part.strip()

                    if not part:
                        continue

                    if part not in [
                        "<|image|>",
                        "<|discrete_image|>",
                        "<|audio|>",
                        "<|discrete_audio|>",
                    ]:
                        content_text = part

                        if hasattr(output, "input_str"):
                            output.input_str += "\n" + content_text
                        if getattr(output, "input_ids", None) is not None:
                            content_encoded = tokenizer.encode(
                                "\n" + content_text, truncation=False
                            )
                            output.input_ids += content_encoded
                            if turn.get("trainable_content", True):
                                output.label_ids += content_encoded
                            else:
                                output.label_ids += [
                                    IGNORE_INDEX for _ in range(len(content_encoded))
                                ]
                        continue

                    if part == "<|image|>":
                        file_name = turn.get("image_urls", [])[turn_img_idx]
                        if isinstance(file_name, str) and "#" in file_name:
                            file_name = file_name.split("#")[-1]
                        file_name = os.path.basename(file_name)
                        mime = Preprocessor.prompt_mime(
                            mimes=None,
                            fixed_mime=False,
                            file_name=file_name,
                            tag_idx=output.sample_mm_counter["image"],
                            is_video=False,
                            is_audio=False,
                            seed=None,
                        )
                        mime_str = f"{cls.mime_start}{json.dumps(mime, ensure_ascii=False)}{cls.mime_end}"
                        discrete_image_str = f"{cls.discrete_image_start}{cls.discrete_image_pad}{cls.discrete_image_end}"
                        vector_str = f"{cls.image_start}{cls.image_pad}{cls.image_end}"
                        mm_str = (
                            cls.new_line
                            + mime_str
                            + cls.new_line
                            + discrete_image_str
                            + cls.new_line
                            + vector_str
                        )

                        if hasattr(output, "input_str"):
                            output.input_str += mm_str
                        if getattr(output, "input_ids", None) is not None:
                            token_ids = tokenizer.encode(mm_str, truncation=False)
                            output.input_ids += token_ids
                            output.label_ids += [
                                IGNORE_INDEX for _ in range(len(token_ids))
                            ]
                        turn_img_idx += 1
                        output.sample_mm_counter["image"] += 1

                    elif part == "<|discrete_image|>":
                        discrete_image_str = f"{cls.discrete_image_start}{cls.discrete_image_pad}{cls.discrete_image_end}"
                        mm_str = cls.new_line + discrete_image_str
                        if hasattr(output, "input_str"):
                            output.input_str += mm_str
                        if getattr(output, "input_ids", None) is not None:
                            token_ids = tokenizer.encode(mm_str, truncation=False)
                            output.input_ids += token_ids
                            output.label_ids += token_ids
                        turn_img_idx += 1

                    elif part == "<|discrete_audio|>":
                        discrete_audio_str = f"{cls.discrete_audio_start}{cls.discrete_audio_pad}{cls.discrete_audio_end}"
                        mm_str = cls.new_line + discrete_audio_str
                        if hasattr(output, "input_str"):
                            output.input_str += mm_str
                        if getattr(output, "input_ids", None) is not None:
                            token_ids = tokenizer.encode(mm_str, truncation=False)
                            output.input_ids += token_ids
                            if turn.get("trainable_content", True):
                                output.label_ids += token_ids
                            else:
                                output.label_ids += [
                                    IGNORE_INDEX for _ in range(len(token_ids))
                                ]

                    elif part == "<|audio|>":
                        raise Exception(
                            "Assistant turn에서 <|audio|> 태그는 지원하지 않음. discrete_audio 만 지원함."
                        )

        if hasattr(output, "input_str"):
            output.input_str += cls.turn_suffix

        if getattr(output, "input_ids", None) is not None:
            token_ids = tokenizer.encode(cls.turn_suffix, truncation=False)
            output.input_ids += token_ids
            if turn.get("trainable_content", True):
                output.label_ids += token_ids
            else:
                output.label_ids += [IGNORE_INDEX for _ in range(len(token_ids))]

        return output

    @classmethod
    def prompt_tool(
        cls,
        output,
        tokenizer=None,
        turn: Optional[dict] = None,
        role: Optional[str] = None,
        content: Optional[str] = None,
        eot: Optional[bool] = None,
        need_start_tag=True,
        need_end_tag=True,
    ):
        assert (content and role) or turn
        if turn is None:
            turn = {
                "content": content,
                "role": role,
                "endofturn": eot,
            }
        assert (
            "tool" == turn["role"]
        ), f'[warning] unexpected turn["role"]: {turn["role"]}'
        content_value = turn.get("content", "")

        if isinstance(content_value, dict):
            if "response" in content_value:
                content_str = content_value["response"]
            else:
                content_str = json.dumps(content_value, ensure_ascii=False)
        elif isinstance(content_value, str):
            try:
                parsed = json.loads(content_value)
                if isinstance(parsed, dict):
                    if "response" in parsed:
                        content_str = parsed["response"]
                    else:
                        content_str = json.dumps(parsed, ensure_ascii=False)
                else:
                    content_str = content_value
            except (json.JSONDecodeError, TypeError):
                content_str = content_value
        else:
            content_str = str(content_value)

        turn["content"] = (
            f"<tool_response>{turn.get('name', '')}\n{content_str}\n</tool_response>"
        )

        if hasattr(output, "input_str"):
            if need_start_tag:
                output.input_str += f"{cls.new_line}{cls.turn_prefix}{turn['role']}"
            output.input_str += f"{cls.new_line}{turn['content']}"
            if need_end_tag:
                output.input_str += cls.turn_suffix

        if getattr(output, "input_ids", None) is not None:
            if need_start_tag:
                role_encoded = tokenizer.encode(
                    f"{cls.new_line}{cls.turn_prefix}{turn['role']}", truncation=False
                )
                output.input_ids += role_encoded

                if turn.get("trainable_role", True):
                    output.label_ids += role_encoded
                else:
                    output.label_ids += [IGNORE_INDEX for _ in range(len(role_encoded))]

            content = f"{cls.new_line}{turn['content']}"
            content_encoded = tokenizer.encode(content, truncation=False)
            if need_end_tag:
                content_encoded += tokenizer.encode(
                    f"{cls.turn_suffix}", truncation=False
                )
                output.input_ids += content_encoded
                if turn.get("trainable_content", True):
                    output.label_ids += content_encoded
                else:
                    output.label_ids += [
                        IGNORE_INDEX for _ in range(len(content_encoded))
                    ]
        return output

    @classmethod
    def prompt_etc(
        cls,
        output,
        tokenizer=None,
        turn: Optional[dict] = None,
        role: Optional[str] = None,
        content: Optional[str] = None,
        eot: Optional[bool] = None,
    ):
        assert (content and role) or turn
        if turn is None:
            turn = {
                "content": content,
                "role": role,
                "endofturn": eot,
            }
        print(f'[warning] unexpected turn["role"]: {turn["role"]}')

        if hasattr(output, "input_str"):
            output.input_str += f"{cls.turn_prefix}{turn['role']}\n"
            output.input_str += f"{turn['content']}{cls.turn_suffix}"
            if turn.get("stop", False):
                output.input_str += cls.stop_token
            if turn.get("endofturn", False):
                output.input_str += cls.eot

        if getattr(output, "input_ids", None) is not None:
            role_encoded = tokenizer.encode(
                f"{cls.turn_prefix}{turn['role']}\n", truncation=False
            )
            output.input_ids += role_encoded

            if turn.get("trainable_role", True):
                output.label_ids += role_encoded
            else:
                output.label_ids += [IGNORE_INDEX for _ in range(len(role_encoded))]

            content = f"{turn['content']}{cls.turn_suffix}"
            if turn.get("stop", False):
                content += cls.stop_token
            if turn.get("endofturn", False):
                content += cls.eot
            content_encoded = tokenizer.encode(content, truncation=False)
            output.input_ids += content_encoded
            if turn.get("trainable_content", True):
                output.label_ids += content_encoded
            else:
                output.label_ids += [IGNORE_INDEX for _ in range(len(content_encoded))]
        return output

    def __call__(self, sample):
        return self.preprocess_new(sample)

    @classmethod
    def batchify(
        cls,
        items: List[Dict[str, Any],],
        device: str = None,
    ):
        batch = dict()
        for item in items:
            for k, v in item.items():
                if isinstance(v, torch.Tensor):
                    if device is not None:
                        v = v.to(device=device)
                elif k == "pixel_values":
                    v = [_v.to(device=device) for _v in v]

                if k not in batch:
                    batch[k] = [
                        v,
                    ]
                else:
                    batch[k].append(v)

        for k, v in batch.items():
            if isinstance(v[0], torch.Tensor):
                if k in ["image_grid_thw", "video_grid_thw"]:
                    batch[k] = torch.cat(v, dim=0)
                    continue
                batch[k] = torch.stack(v, dim=0)
        batch["video_grid_thw"] = None
        batch["pixel_values_videos"] = None
        return batch

    def convert_wds_to_datalake(
        self,
        img: Union[PIL.Image.Image, Dict[str, PIL.Image.Image]] = {},
        json: Dict[str, Any] = {},
        benchmark: Optional[str] = None,
        video: Union[io.BytesIO, Dict[str, io.BytesIO]] = {},
        audio: Union[io.BytesIO, Dict[str, io.BytesIO]] = {},
    ):

        if "lines" in json:
            del json["lines"]
        if "paragraphs" in json:
            del json["paragraphs"]

        assert json["meta"]["type"] in [
            "caption",
            "vqa",
            "textread",
        ], f"{json['meta']['path']}, {json['meta']['type']}: The dataset type should be one of them: caption, vqa, textread."

        sample = {"vlm": {}}
        sample["vlm"] = get_wds_default_config(
            json["meta"], existing_default_config=self.wds_default_config
        )
        sample["vlm"]["data_name"] = json["meta"].get("name", "unk")

        sample["vlm"]["data_type"] = (
            "wds"
            if (isinstance(img, PIL.Image.Image) and img)
            or (isinstance(img, dict) and len(img) > 0)
            else "sft1"
        )

        sample["vlm"]["sample_id"] = json.get("qa_id", None)
        sample["vlm"]["category"] = json.get("category", None)
        sample["vlm"]["data_info"] = json.get("data_info", dict())
        sample["vlm"]["options"] = None
        if "choices_en" in sample["vlm"]["data_info"]:
            if sample["vlm"]["options"] is None and json["meta"]["lang"] == "en":
                sample["vlm"]["options"] = sample["vlm"]["data_info"]["choices_en"]
            sample["vlm"]["options_en"] = sample["vlm"]["data_info"]["choices_en"]
        if "choices_ko" in sample["vlm"]["data_info"]:
            if sample["vlm"]["options"] is None and json["meta"]["lang"] == "ko":
                sample["vlm"]["options"] = sample["vlm"]["data_info"]["choices_ko"]
            sample["vlm"]["options_ko"] = sample["vlm"]["data_info"]["choices_ko"]
        sample["vlm"]["image_index"] = json.get(
            "image_index", json.get("img_url", None)
        )

        if sample["vlm"].get("video", False):
            is_multi_image_dataset = False
        else:
            is_multi_image_dataset, img, json = convert_format_for_multi_image(
                img, json
            )

        if json["meta"]["type"] == "textread":
            key = "words"
        elif json["meta"].get("subtask", "") == "region":
            key = f"regions_{json['meta']['lang']}"
        elif json["meta"]["type"] == "vqa":
            key = f"qa_pairs_{json['meta']['lang']}"
        elif json["meta"]["type"] == "caption":
            key = f"captions_{json['meta']['lang']}"
        else:
            raise ConditionalError(
                f"wrong task type in wds config: {sample['vlm']['data_name']}"
            )

        turns = [
            {
                "role": "tool_list",
                "content": "",
                "content_type": "text",
                "trainable_role": False,
                "trainable_content": False,
                "stop": False,
                "debuggingInfo": {},
                "meta": {},
                "candidates": [],
                "endofturn": False,
            },
            {
                "role": "system",
                "content_type": "text",
                "candidates": [],
                "trainable_role": False,
                "trainable_content": False,
                "stop": False,
                "debuggingInfo": {},
                "meta": {},
                "content": "",
                "endofturn": False,
            },
        ]

        if json["meta"].get("llava_pretrain", False):
            sample["vlm"]["llava_pretrain"] = True

        use_task_prompt = json["meta"].get(
            "use_task_prompt", self.wds_default_config["use_task_prompt"]
        )
        get_random = json["meta"].get(
            "get_random", self.wds_default_config["get_random"]
        )
        reasoning = json["meta"].get("reasoning", self.wds_default_config["reasoning"])

        try:
            if key not in json:
                key = key[:-3]
            assert key in json
            if len(json[key]) == 0:
                key = key[:-3]
            assert key in json
        except:
            raise ConditionalError(
                f"{key} key is not in json? dataset name: {sample['vlm']['data_name']}"
            )

        first_turn = True
        if "region" in key:
            json[key] = json[key]["00"]
            sample["vlm"]["multiturn_n_samples"] = 1
        if (
            not is_multi_image_dataset
            and sample["vlm"]["multiturn_n_samples"] > 1
            or "region" in key
        ):
            json[key] = sampling_multiturn_single_img(
                json[key],
                sample["vlm"]["multiturn_n_samples"],
                sample["vlm"]["multiturn_preserve_order"],
                sample["vlm"]["multiturn_continuous"],
            )

        if sample["vlm"].get("video", False):
            for qa in json[key]:
                vid_src = []
                user = {
                    "role": "user",
                    "content_type": "text",
                    "candidates": [],
                    "trainable_role": False,
                    "trainable_content": False,
                    "stop": False,
                    "debuggingInfo": {},
                    "meta": {},
                    "image_urls": [],
                    "image_metas": [],
                    "video_urls": [],
                    "video_metas": [],
                    "audio_urls": [],
                    "audio_metas": [],
                    "content": "",
                    "endofturn": False,
                }

                instruct_prompt, task_prompt = hcx_vision_prompter(
                    task=json["meta"]["type"],
                    subtask=json["meta"].get("subtask", None),
                    lang=json["meta"]["lang"],
                    get_random=get_random,
                    use_task_prompt=use_task_prompt,
                )

                prompt = qa[0]
                answer = qa[-1] if reasoning else qa[1]

                if first_turn:
                    user["video_metas"].append({"lens": []})
                    user["content"] += "<|video|>"
                    prompt = task_prompt.format(prompt)

                    if "entities" in json:
                        user["video_metas"][0]["lens"] = json["entities"].get("00", [])
                    if isinstance(video, dict):
                        vid_src.append(video["00"])
                    else:
                        vid_src.append(video)
                    first_turn = False

                user["video_urls"] = vid_src
                user["content"] += prompt

                assistant = {
                    "candidates": [],
                    "content": answer,
                    "content_type": "text",
                    "debuggingInfo": {},
                    "meta": {},
                    "role": "assistant",
                    "trainable_content": True,
                    "trainable_role": True,
                    "stop": False,
                    "endofturn": True,
                }
                turns.append(user)
                turns.append(assistant)

        else:
            if key.startswith("qa_pairs") or key.startswith("captions"):
                if self.mode != "train" and key.startswith("qa_pairs"):
                    qas = dict()
                    for qa in json[key]:
                        q = qa[0]
                        if q not in qas:
                            qas[q] = list()
                        for _i, _e in enumerate(qa[1:]):
                            if len(qas[q]) <= _i:
                                qas[q].append(list())
                            qas[q][_i].append(_e)
                    json[key] = [
                        [
                            k,
                        ]
                        + v
                        for k, v in qas.items()
                    ]

                if self.mode != "train":
                    json[key] = json[key][:1]

                for qa in json[key]:
                    img_src = []
                    user = {
                        "role": "user",
                        "content_type": "text",
                        "candidates": [],
                        "trainable_role": False,
                        "trainable_content": False,
                        "stop": False,
                        "debuggingInfo": {},
                        "meta": {},
                        "image_urls": [],
                        "image_metas": [],
                        "video_urls": [],
                        "video_metas": [],
                        "audio_urls": [],
                        "audio_metas": [],
                        "content": "",
                        "endofturn": False,
                    }
                    img_keys = re.findall(r"<image_(\d+)>", qa[0])
                    video_keys = re.findall(r"<video_(\d+)>", qa[0])
                    audio_keys = re.findall(r"<audio_(\d+)>", qa[0])

                    if key.startswith("qa_pairs"):
                        if len(qa) > 2:
                            sample_id = qa[2]
                            if (
                                isinstance(sample_id, (list, tuple))
                                and len(sample_id) > 0
                            ):
                                sample_id = sample_id[0]
                            sample["vlm"]["sample_id"] = sample_id

                    instruct_prompt, task_prompt = hcx_vision_prompter(
                        task=json["meta"]["type"],
                        subtask=json["meta"].get("subtask", None),
                        lang=json["meta"]["lang"],
                        get_random=get_random,
                        use_task_prompt=use_task_prompt,
                    )
                    if json["meta"]["type"] == "vqa":
                        prompt = qa[0]
                        answer = qa[-1] if reasoning else qa[1]
                    elif json["meta"]["type"] == "caption":
                        prompt = task_prompt.format("")
                        answer = qa

                    if first_turn or self.mode != "train":
                        if json["meta"]["type"] == "vqa":
                            prompt = task_prompt.format(prompt)
                    if first_turn and not is_multi_image_dataset:
                        user["image_metas"].append({"words": [], "lens": []})
                        if "<image_00>" in prompt:
                            prompt = prompt.replace("<image_00>", "<|image|>")
                        else:
                            user["content"] += "<|image|>"
                        user["image_metas"][0]["words"] = json.get("words", {}).get(
                            "00", []
                        )
                        if "objects" in json:
                            user["image_metas"][0]["lens"] = json["objects"].get(
                                "00", []
                            )
                        elif "entities" in json:
                            user["image_metas"][0]["lens"] = json["entities"].get(
                                "00", []
                            )
                        if isinstance(img, dict):
                            img_src.append(img["00"])
                        else:
                            img_src.append(img)
                    elif len(img_keys) > 0:
                        for i, key in enumerate(img_keys):
                            user["image_metas"].append({"words": [], "lens": []})
                            if f"<image_{i:02d}>" in prompt:
                                prompt = prompt.replace(f"<image_{i:02d}>", "<|image|>")
                            else:
                                user["content"] += "<|image|>"
                            img_src.append(img[key])
                            _words = json.get("words", {})
                            if isinstance(_words, dict):
                                _words = _words.get(key, [])
                            user["image_metas"][i]["words"] = _words
                            if "objects" in json:
                                _objects = json["objects"].get(key, [])
                                if isinstance(_objects, dict):
                                    _objects = _objects.get(key, [])
                                user["image_metas"][i]["lens"] = _objects
                            if "entities" in json:
                                _entities = json["entities"].get(key, [])
                                if isinstance(_entities, dict):
                                    _entities = _entities.get(key, [])
                                user["image_metas"][i]["lens"] = _entities
                    user["image_urls"] = img_src

                    if len(audio_keys) > 0:
                        for i, key in enumerate(audio_keys):
                            if isinstance(audio, dict):
                                user["audio_urls"].append(audio[key])
                            else:
                                user["audio_urls"].append(audio)
                            user["audio_metas"].append(
                                {
                                    "format": "wav",
                                    "note": "This audio sample is passed to convert_wds_to_datalake function.",
                                }
                            )
                            if f"<audio_{i:02d}>" in prompt:
                                prompt = prompt.replace(f"<audio_{i:02d}>", "<|audio|>")
                            else:
                                user["content"] += "<|audio|>"

                    user["content"] += prompt

                    content, candidates = None, list()
                    if self.mode != "train":
                        if isinstance(answer, (int, float)):
                            pass
                        elif isinstance(answer, str):
                            if answer != "None":
                                try:
                                    answer = ast.literal_eval(answer)
                                except Exception as ex:
                                    pass
                            if not isinstance(answer, (list, tuple)):
                                answer = [
                                    answer,
                                ]
                            candidates += answer[1:]
                            answer = answer[0]
                            content = answer
                        elif isinstance(answer, (list, tuple)):
                            for _idx, _answer in enumerate(answer):
                                if isinstance(_answer, str):
                                    if isinstance(benchmark, str) and benchmark in [
                                        "textvqa",
                                    ]:
                                        try:
                                            _answer = ast.literal_eval(_answer)
                                        except Exception as ex:
                                            pass
                                if isinstance(_answer, dict):
                                    _answer = str(_answer)
                                if not isinstance(_answer, (list, tuple)):
                                    _answer = [
                                        _answer,
                                    ]
                                if _idx == 0:
                                    content = _answer[0]
                                    candidates += _answer[1:]
                                else:
                                    candidates += _answer

                        if isinstance(content, (int, float)):
                            content = str(content)
                        assert content is None or isinstance(content, str)
                        for _idx, _candidate in enumerate(candidates):
                            if isinstance(_candidate, (int, float)):
                                candidates[_idx] = str(_candidate)
                            assert isinstance(candidates[_idx], str)
                        mcqa_gt = sample["vlm"]["data_info"].get("choice_answer", None)
                        if isinstance(mcqa_gt, str):
                            content = mcqa_gt

                    assistant = {
                        "candidates": candidates,
                        "content": answer if self.mode == "train" else content,
                        "content_type": "text",
                        "debuggingInfo": {},
                        "meta": {},
                        "role": "assistant",
                        "trainable_content": True,
                        "trainable_role": True,
                        "stop": False,
                        "endofturn": True,
                    }
                    turns.append(user)
                    turns.append(assistant)

            elif key == "words":
                img_src = []
                user = {
                    "role": "user",
                    "content_type": "text",
                    "candidates": [],
                    "trainable_role": False,
                    "trainable_content": False,
                    "stop": False,
                    "debuggingInfo": {},
                    "meta": {},
                    "image_urls": [],
                    "image_metas": [],
                    "video_urls": [],
                    "video_metas": [],
                    "audio_urls": [],
                    "audio_metas": [],
                    "content": "<|image|>",
                    "endofturn": False,
                }
                instruct_prompt, task_prompt = hcx_vision_prompter(
                    task=json["meta"]["type"],
                    subtask=json["meta"].get("subtask", None),
                    lang=json["meta"]["lang"],
                    get_random=get_random,
                    use_task_prompt=use_task_prompt,
                )
                user["content"] += task_prompt
                user["image_metas"].append({"words": [], "lens": []})
                user["image_metas"][0]["words"] = json["words"]["00"]
                if "entities" in json:
                    user["image_metas"][0]["lens"] = json["entities"].get("00", [])
                img_src.append(img["00"])
                user["image_urls"] = img_src

                words_list = [
                    d["text"].strip() for d in json["words"]["00"] if d["text"]
                ]
                gt = " ".join(words_list)
                assistant = {
                    "candidates": [],
                    "content": gt,
                    "content_type": "text",
                    "debuggingInfo": {},
                    "meta": {},
                    "role": "assistant",
                    "trainable_content": True,
                    "trainable_role": True,
                    "stop": False,
                    "endofturn": True,
                }
                turns.append(user)
                turns.append(assistant)

            elif key.startswith("regions"):
                for region in json[key]:
                    img_src = []
                    user = {
                        "role": "user",
                        "content_type": "text",
                        "candidates": [],
                        "trainable_role": False,
                        "trainable_content": False,
                        "stop": False,
                        "debuggingInfo": {},
                        "meta": {},
                        "image_urls": [],
                        "image_metas": [],
                        "video_urls": [],
                        "video_metas": [],
                        "audio_urls": [],
                        "audio_metas": [],
                        "content": "<|image|><|region|>",
                        "endofturn": False,
                    }
                    instruct_prompt, task_prompt = hcx_vision_prompter(
                        task=json["meta"]["type"],
                        subtask=json["meta"].get("subtask", None),
                        lang=json["meta"]["lang"],
                        get_random=get_random,
                        use_task_prompt=use_task_prompt,
                    )
                    sample["vlm"]["query_template"] = [task_prompt]
                    user["image_metas"].append({"words": [], "lens": []})
                    user["image_metas"][0]["region"] = region
                    if "words" in json:
                        user["image_metas"][0]["words"] = json["words"].get("00", [])
                    if "objects" in json:
                        user["image_metas"][0]["lens"] = json["objects"].get("00", [])
                    if "entities" in json:
                        user["image_metas"][0]["lens"] = json["entities"].get("00", [])
                    img_src.append(img["00"])
                    user["image_urls"] = img_src

                    assistant = {
                        "candidates": [],
                        "content": region["text"],
                        "content_type": "text",
                        "debuggingInfo": {},
                        "meta": {},
                        "role": "assistant",
                        "trainable_content": True,
                        "trainable_role": True,
                        "stop": False,
                        "endofturn": True,
                    }
                    turns.append(user)
                    turns.append(assistant)
            else:
                raise ConditionalError(
                    f"wrong task type in wds config: {sample['vlm']['data_name']}"
                )
        sample["data"] = turns
        return sample

    def preprocess_new(self, sample):

        config = sample.get("vlm", {})
        if config["data_type"] in ["sft1", "datalake"]:
            default_config = copy.deepcopy(self.default_config)
            default_config.update(config)
            config = default_config
        idx_for_debug = sample.get("idx", -1)
        turns = sample["data"] if "data" in sample else sample["messages"]

        if self.random_system_prompt and self.rng.random() < config.get(
            "random_system_prob", 0.0
        ):
            for turn in turns:
                if turn["role"] == "system":
                    turn["content"] = self.random_system_prompt
                    break

        if sample.get("tools", None) is None:
            sample["tools"] = []

        if len(sample["tools"]) == 0:
            if (
                self.rng.random() < config.get("random_tool_prob", 0.005)
                and len(self.common_tools) > 0
            ):

                max_n_tools = min(7, len(self.common_tools))
                tool_counts = np.arange(1, max_n_tools + 1)
                tool_count_weights = 1.0 / tool_counts
                tool_count_weights = tool_count_weights / tool_count_weights.sum()
                n_tools = int(self.rng.choice(tool_counts, p=tool_count_weights))

                idxs = np.arange(len(self.common_tools))
                weights = 1.0 / (idxs + 1)
                weights[0] += 1.0
                weights = weights / weights.sum()

                chosen_indices = self.rng.choice(
                    len(self.common_tools), size=n_tools, replace=False, p=weights
                )

                self.rng.shuffle(chosen_indices)

                sample["tools"] = [self.common_tools[i] for i in chosen_indices]

        if "tools" in sample and sample["tools"]:
            tool_prompt = []
            tool_prompt.append("# Tools\n\n")
            tool_prompt.append(
                "You may call one or more functions to assist with the user query.\n\n"
            )
            tool_prompt.append(
                "You are provided with function signatures within <tools></tools> XML tags:\n"
            )
            tool_prompt.append("<tools>\n")
            for tool in sample["tools"]:
                tool_prompt.append(json.dumps(tool, ensure_ascii=False))
            tool_prompt.append("\n</tools>\n\n")
            tool_prompt.append(
                "For each function call, output the function name and arguments within the following XML format:\n"
            )
            tool_prompt.append("<tool_call>{function-name}\n")
            tool_prompt.append("<arg_key>{arg-key-1}</arg_key>\n")
            tool_prompt.append("<arg_value>{arg-value-1}</arg_value>\n")
            tool_prompt.append("<arg_key>{arg-key-2}</arg_key>\n")
            tool_prompt.append("<arg_value>{arg-value-2}</arg_value>\n")
            tool_prompt.append("...\n")
            tool_prompt.append("</tool_call>")

            tool_prompt = "".join(tool_prompt)
        else:
            tool_prompt = ""

        multiturn_n_sample = config.get("multiturn_n_samples", 0)
        if multiturn_n_sample > 0 and self.mode == "train":
            turns = self._sampling_multiturn(
                turns,
                multiturn_n_sample,
                multiturn_preserve_order=config.get("multiturn_preserve_order", True),
                multiturn_continuous=config.get("multiturn_continuous", False),
            )

        for i, turn in enumerate(turns):
            if turn["role"] == "user":
                if "img_src" in turn:
                    turns[i]["image_urls"] = turn["img_src"]
                    turns[i]["image_metas"] = turn["meta"]
                    for j, turn_img_meta in enumerate(turns[i]["image_metas"]):
                        if "entities" in turn_img_meta:
                            turns[i]["image_metas"][j]["lens"] = turn_img_meta[
                                "entities"
                            ]
                    turns[i]["meta"] = {}

        max_image_cnt = config.get("max_image_cnt", 20)
        if max_image_cnt > 0 and config["data_type"] != "sft1":
            n_imgs = {}
            for i, turn in enumerate(turns):
                if turn["role"] == "user":
                    n_imgs[i] = len(turn.get("image_urls", []))
                    assert (
                        n_imgs[i] <= max_image_cnt
                    ), "skip sample if image_nums exceeds max_image_count per turn"

            if sum(n_imgs.values()) > max_image_cnt:
                img_count = 0
                for k, v in reversed(list(n_imgs.items())):
                    img_count += v
                    if img_count > max_image_cnt:
                        break

                img_count = sum(n_imgs.values()) - max_image_cnt

                for i in range(k + 1):
                    if turns[i]["role"] == "user":
                        turns[i]["content"], n_removed1 = re.subn(
                            r"<image_\d{2}>",
                            "",
                            turns[i]["content"].strip(),
                            count=img_count,
                        )
                        img_count -= n_removed1
                        turns[i]["content"], n_removed2 = re.subn(
                            r"<\|image\|>",
                            "",
                            turns[i]["content"].strip(),
                            count=img_count,
                        )
                        img_count -= n_removed2
                        n_removed_imgs = n_removed1 + n_removed2
                        turns[i]["image_urls"] = turns[i]["image_urls"][n_removed_imgs:]

                        if n_removed_imgs > 0 and len(turns[i]["image_urls"]) == 0:
                            idx = i
                            while True:
                                idx += 1
                                turns[idx]["trainable_role"] = False
                                turns[idx]["trainable_content"] = False
                                if turns[idx]["role"] == "assistant":
                                    break

                n_imgs_after = {}
                for i, turn in enumerate(turns):
                    if turn["role"] == "user":
                        n_imgs_after[i] = len(turn.get("image_urls", []))
                assert sum(n_imgs_after.values()) > 0, "The n_imgs of vlm data is zero."

            n_mm_after = {}
            for i, turn in enumerate(turns):
                if turn["role"] == "user" or turn["role"] == "assistant":
                    n_mm_after[i] = (
                        len(turn.get("image_urls", []))
                        + len(turn.get("video_urls", []))
                        + len(turn.get("audio_urls", []))
                    )
            assert sum(n_mm_after.values()) > 0, "The n_mm of omni data is zero."

        queries, gts = list(), list()
        output = Processed_sample(
            input_str="",
            input_ids=[],
            label_ids=[],
            imgs=[],
            discrete_imgs=[],
            videos=[],
            videos_duration=[],
            video_audios=[],
            audios=[],
            audios_duration=[],
            discrete_audios=[],
            sample_mm_counter={
                "image": 0,
                "video": 0,
                "audio": 0,
            },
        )
        system_role_count = 0
        last_user_idx = max(
            (i for i, d in enumerate(turns) if d.get("role") == "user"), default=-1
        )
        for i, turn in enumerate(turns):
            if turn["role"] == "tool_list":
                continue

            elif turn["role"] == "system":
                if config.get("llava_pretrain", False):
                    continue
                output = Preprocessor.prompt_system(
                    turn=turn,
                    output=output,
                    tokenizer=self.tokenizer,
                    seed=self.rng,
                    tool_prompt=tool_prompt,
                    system_role_count=system_role_count,
                )
                system_role_count += 1

            elif turn["role"].startswith("user"):
                output = Preprocessor.load_mm(
                    output=output,
                    img_dir=config.get("img_dir", ""),
                    turn=turn,
                    prepare_input_fn=self.prepare_input_fn,
                    max_image_cnt=max_image_cnt,
                    video_max_num_frames=self.video_max_num_frames,
                    video_max_pixels=self.video_max_pixels,
                    use_audio=self.train_audio,
                )
                output = Preprocessor.prompt_user(
                    output=output,
                    tokenizer=self.tokenizer,
                    turn=turn,
                    is_train=True if self.mode == "train" else False,
                    fixed_mime=config.get("fixed_mime", False),
                    mimes=self.mimes,
                    query_template=config.get("query_template", None),
                    config=config,
                    seed=self.rng,
                )

                queries.append(turn["content"].replace("<|image|>", "").strip())
            elif turn["role"].startswith("assistant"):
                output = Preprocessor.load_mm(
                    output=output,
                    img_dir=config.get("img_dir", ""),
                    turn=turn,
                    prepare_input_fn=self.prepare_input_fn,
                    max_image_cnt=max_image_cnt,
                    video_max_num_frames=self.video_max_num_frames,
                    video_max_pixels=self.video_max_pixels,
                    use_audio=self.train_audio,
                )

                is_after_last_user = i > last_user_idx
                is_first_assistant_after_last_user = False
                if is_after_last_user:
                    is_first_assistant_after_last_user = all(
                        turns[j]["role"] != "assistant"
                        for j in range(last_user_idx + 1, i)
                    )

                output = Preprocessor.prompt_assistant(
                    output=output,
                    tokenizer=self.tokenizer,
                    turn=turn,
                    is_last_turn=is_first_assistant_after_last_user,
                    is_eval=True if self.mode != "train" else False,
                    is_llava_pretrain=config.get("llava_pretrain", False),
                    is_after_last_user_turn=is_after_last_user,
                )
                _gts = turn["content"]
                if isinstance(_gts, str):
                    _gts = [
                        _gts,
                    ]
                if "candidates" in turn and len(turn["candidates"]) > 0:
                    for _candidates in turn["candidates"]:
                        if isinstance(_candidates, str):
                            _gts += [
                                _candidates,
                            ]
                        elif isinstance(turn["candidates"][0], (list, tuple)):
                            _gts += _candidates
                gts.append(_gts)
            elif turn["role"] == "tool":
                if config.get("llava_pretrain", False):
                    continue

                output = Preprocessor.prompt_tool(
                    output=output,
                    tokenizer=self.tokenizer,
                    turn=turn,
                    need_start_tag=(
                        True
                        if (i == 0 or turns[i - 1].get("role") != "tool")
                        else False
                    ),
                    need_end_tag=(
                        True
                        if (i == (len(turns) - 1) or turns[i + 1].get("role") != "tool")
                        else False
                    ),
                )
            else:
                if config.get("llava_pretrain", False):
                    continue

                import pdb
                import sys

                class ForkedPdb(pdb.Pdb):
                    """A Pdb subclass that may be used from a forked multiprocessing child"""

                    def interaction(self, *args, **kwargs):
                        _stdin = sys.stdin
                        try:
                            sys.stdin = open("/dev/stdin")
                            pdb.Pdb.interaction(self, *args, **kwargs)
                        finally:
                            sys.stdin = _stdin

                ForkedPdb().set_trace()
                output = Preprocessor.prompt_etc(
                    output=output,
                    tokenizer=self.tokenizer,
                    turn=turn,
                )

        pixel_values = []
        mm_query_lengths = []
        discrete_pixel_values = []
        image_ratios = []
        discrete_image_query_lengths = []

        labels = output.label_ids
        input_ids = output.input_ids
        total_mm_query_length = 0

        is_sft1 = False
        if config["data_type"] == "sft1":
            if self.sequence_parallel_size > 1:
                if len(input_ids) % self.sequence_parallel_size != 0:
                    input_ids += [self.tokenizer.pad_token_id] * (
                        self.sequence_parallel_size
                        - (len(input_ids) % self.sequence_parallel_size)
                    )
                    labels += [IGNORE_INDEX] * (
                        self.sequence_parallel_size
                        - (len(labels) % self.sequence_parallel_size)
                    )

                input_ids = input_ids[
                    : (len(input_ids) // self.sequence_parallel_size)
                    * self.sequence_parallel_size
                ]
                labels = labels[
                    : (len(labels) // self.sequence_parallel_size)
                    * self.sequence_parallel_size
                ]

            input_ids = torch.tensor(input_ids[-self.decoder_max_length :])
            labels = torch.tensor(labels[-self.decoder_max_length :])
            is_sft1 = True

        dummy_preprocess_results = self.prepare_input_fn.image_processor(
            Image.new("RGB", (224, 224), (0, 0, 0))
        )
        dummy_pixel_values = torch.from_numpy(
            np.concatenate([dummy_preprocess_results.pixel_values], axis=0)
        )
        dummy_grid_thw = torch.from_numpy(
            np.concatenate([dummy_preprocess_results.image_grid_thw], axis=0)
        )

        image_grid_thw = []
        for img in output.imgs:
            w, h = img.size

            img = self._resize_min_edge(img)
            preprocess_results = self.prepare_input_fn.image_processor([img])
            pixel_values.append(preprocess_results.pixel_values)
            image_grid_thw.append(preprocess_results.image_grid_thw)
            mm_query_lengths.append(preprocess_results.pixel_values.shape[0] // 4)

        if len(output.imgs) == 0:
            pixel_values = torch.zeros(0, 1176)
            image_grid_thw = torch.zeros(0, 3, dtype=torch.long)
        else:
            pixel_values = torch.from_numpy(np.concatenate(pixel_values, axis=0))
            image_grid_thw = torch.from_numpy(np.concatenate(image_grid_thw, axis=0))

        for img in output.discrete_imgs:
            w, h = img.size

            img_ratio = self._find_best_ratio_token([h, w])
            image_ratios.append(img_ratio)
            discrete_pixel_value = img.resize((384, 384), Image.BICUBIC)
            discrete_pixel_tensor = to_tensor(discrete_pixel_value)

            assert discrete_pixel_tensor.shape == (
                3,
                384,
                384,
            ), f"Unexpected discrete_pixel_tensor shape: {discrete_pixel_tensor.shape}"
            assert not torch.isnan(
                discrete_pixel_tensor
            ).any(), "discrete_pixel_tensor contains NaN"
            assert not torch.isinf(
                discrete_pixel_tensor
            ).any(), "discrete_pixel_tensor contains Inf"
            pixel_min = discrete_pixel_tensor.min().item()
            pixel_max = discrete_pixel_tensor.max().item()
            assert (
                0.0 <= pixel_min <= 1.0 and 0.0 <= pixel_max <= 1.0
            ), f"discrete_pixel_tensor values out of range [0, 1]: min={pixel_min}, max={pixel_max}"

            discrete_pixel_values.append(discrete_pixel_tensor)
            discrete_image_query_lengths.append(729)

        if len(output.discrete_imgs) == 0:
            discrete_pixel_values = torch.zeros(0, 3, 384, 384)
        else:
            discrete_pixel_values = torch.stack(discrete_pixel_values, dim=0)

            assert discrete_pixel_values.shape[1:] == (
                3,
                384,
                384,
            ), f"Unexpected stacked discrete_pixel_values shape: {discrete_pixel_values.shape}"
            assert not torch.isnan(
                discrete_pixel_values
            ).any(), "Stacked discrete_pixel_values contains NaN"
            assert not torch.isinf(
                discrete_pixel_values
            ).any(), "Stacked discrete_pixel_values contains Inf"

        pixel_values_videos = None
        video_grid_thw = None
        if self.train_video:
            pixel_values_videos = []
            video_grid_thw = []
            video_query_lengths = []
            for video in output.videos:
                preprocess_results = self.prepare_input_fn.video_processor([video])
                pixel_values_videos.append(preprocess_results.pixel_values_videos)
                video_grid_thw.append(preprocess_results.video_grid_thw)
                video_query_lengths.append(
                    preprocess_results.pixel_values_videos.shape[0] // 4
                )
            if len(output.videos) == 0:
                pixel_values_videos = torch.zeros(0, 1176)
                video_grid_thw = torch.zeros(0, 3, dtype=torch.long)
            else:
                pixel_values_videos = torch.from_numpy(
                    np.concatenate(pixel_values_videos, axis=0)
                )
                video_grid_thw = torch.from_numpy(
                    np.concatenate(video_grid_thw, axis=0)
                )

        video_audio_values = []
        video_audio_masks = []
        video_audio_query_lengths = []
        if self.train_video and hasattr(output, "video_audios") and output.video_audios:
            for idx, video_audio_chunks in enumerate(output.video_audios):
                if video_audio_chunks:
                    processed_audio_values = []
                    processed_audio_masks = []
                    chunk_output_lengths = []

                    for chunk in video_audio_chunks:
                        if isinstance(chunk, torch.Tensor):
                            chunk_np = chunk.cpu().numpy()
                        else:
                            chunk_np = chunk

                        preprocess_results = self.prepare_audio_input_fn(
                            [chunk_np],
                            sampling_rate=self.prepare_audio_input_fn.sampling_rate,
                            return_attention_mask=True,
                            padding="max_length",
                        )

                        audio_value = preprocess_results.input_features[0]
                        audio_mask = preprocess_results.attention_mask[0]

                        mask_sum = int(audio_mask.sum())
                        input_lengths = (mask_sum - 1) // 2 + 1
                        output_lengths = (input_lengths - 2) // 2 + 1
                        chunk_output_lengths.append(output_lengths)

                        processed_audio_values.append(torch.from_numpy(audio_value))
                        processed_audio_masks.append(torch.from_numpy(audio_mask))

                    pool_size = 25
                    if self.video_audio_compressor_type is not None:
                        total_valid_len = sum(chunk_output_lengths)
                        total_audio_query_length = (
                            total_valid_len + pool_size - 1
                        ) // pool_size
                    else:
                        total_audio_query_length = sum(
                            (valid_len + pool_size - 1) // pool_size
                            for valid_len in chunk_output_lengths
                        )

                    video_audio_values.append(processed_audio_values)
                    video_audio_masks.append(processed_audio_masks)
                    video_audio_query_lengths.append(total_audio_query_length)

                    import os

                    if (
                        int(os.environ.get("RANK", -1)) == 0
                        and total_audio_query_length == 177
                    ):
                        print(
                            f"\n[PREPROCESSOR VIDEO - 177 TOKENS DETECTED!] total_audio_query_length={total_audio_query_length}, num_chunks={len(processed_audio_masks)}"
                        )
                        for chunk_idx, mask_tensor in enumerate(processed_audio_masks):
                            chunk_mask_sum = int(mask_tensor.sum())
                            chunk_input_len = (chunk_mask_sum - 1) // 2 + 1
                            chunk_output_len = (chunk_input_len - 2) // 2 + 1
                            chunk_pooled = (chunk_output_len + 24) // 25
                            print(
                                f"  Chunk {chunk_idx}: mask_sum={chunk_mask_sum}, output_len={chunk_output_len}, pooled={chunk_pooled}"
                            )
                        print()

                else:
                    video_audio_values.append([])
                    video_audio_masks.append([])
                    video_audio_query_lengths.append(0)

        dummy_video_preprocess_results = self.prepare_input_fn.video_processor(
            [Image.new("RGB", (224, 224), (0, 0, 0))] * 3
        )
        dummy_pixel_values_videos = torch.from_numpy(
            np.concatenate([dummy_video_preprocess_results.pixel_values_videos], axis=0)
        )
        dummy_video_grid_thw = torch.from_numpy(
            np.concatenate([dummy_video_preprocess_results.video_grid_thw], axis=0)
        )
        dummy_video_preprocess_results = self.prepare_audio_input_fn(
            [np.zeros(self.prepare_audio_input_fn.sampling_rate * 3, dtype=np.float32)],
            sampling_rate=self.prepare_audio_input_fn.sampling_rate,
            return_attention_mask=True,
            padding="max_length",
        )
        dummy_video_audio_values = torch.from_numpy(
            dummy_video_preprocess_results.input_features
        )
        dummy_video_audio_masks = torch.from_numpy(
            dummy_video_preprocess_results.attention_mask
        )

        audio_values = None
        discrete_audio_values = None
        audio_masks = None
        dummy_preprocess_results = self.prepare_audio_input_fn(
            [np.zeros(self.prepare_audio_input_fn.sampling_rate * 3, dtype=np.float32)],
            sampling_rate=self.prepare_audio_input_fn.sampling_rate,
            return_attention_mask=True,
            padding="max_length",
        )
        dummy_audio_values = torch.from_numpy(dummy_preprocess_results.input_features)
        dummy_audio_masks = torch.from_numpy(dummy_preprocess_results.attention_mask)
        if self.train_audio:
            audio_values = []
            discrete_audio_values = []
            audio_masks = []
            audio_query_lengths = []
            discrete_audio_query_lengths = []

            if len(output.audios) > 99:
                raise ConditionalError(
                    f"Too many audio segments in one sample: {len(output.audios)} audios."
                )

            for audio in output.audios:
                chunks = []
                for i in range(
                    0, len(audio), 30 * self.prepare_audio_input_fn.sampling_rate
                ):
                    chunks.append(
                        audio[i : i + 30 * self.prepare_audio_input_fn.sampling_rate]
                    )
                num_of_chunks = len(chunks)
                preprocess_results = self.prepare_audio_input_fn(
                    chunks,
                    sampling_rate=self.prepare_audio_input_fn.sampling_rate,
                    return_attention_mask=True,
                    padding="max_length",
                )
                audio_value = preprocess_results.input_features
                audio_mask = preprocess_results.attention_mask
                audio_values.append(audio_value)
                audio_masks.append(audio_mask)
                input_lengths = int(audio_mask.sum())
                input_lengths = (input_lengths - 1) // 2 + 1
                output_lengths = (input_lengths - 2) // 2 + 1
                audio_query_lengths.append(output_lengths)

            if len(output.audios) == 0:
                audio_values = torch.zeros(0, 128, 3000)
                audio_masks = torch.zeros(0, 3000)
            else:
                audio_values = torch.from_numpy(np.concatenate(audio_values, axis=0))
                audio_masks = torch.from_numpy(np.concatenate(audio_masks, axis=0))

            for audio in output.discrete_audios:
                audio_length = len(audio)

                assert audio_length >= MIN_DISCRETE_AUDIO_CHUNK_SAMPLES, (
                    f"discrete_audio is too short ({audio_length} samples < {MIN_DISCRETE_AUDIO_CHUNK_SAMPLES}). "
                    f"This will cause 0-dim/empty tensor in CosyVoice encoder. "
                    f"Skip this sample."
                )

                max_audio_length = 600 * DEFAULT_SAMPLE_RATE
                audio_duration_sec = audio_length / DEFAULT_SAMPLE_RATE
                assert (
                    audio_length <= max_audio_length
                ), f"discrete_audio is too long ({audio_length} samples = {audio_duration_sec:.1f}s > 600s). "

                assert not torch.isnan(audio).any(), (
                    f"discrete_audio contains NaN values! "
                    f"This will cause CUDA illegal memory access. Skip this sample."
                )
                assert not torch.isinf(audio).any(), (
                    f"discrete_audio contains Inf values! "
                    f"This will cause CUDA illegal memory access. Skip this sample."
                )

                audio_min, audio_max = audio.min().item(), audio.max().item()
                assert -100.0 <= audio_min <= 100.0 and -100.0 <= audio_max <= 100.0, (
                    f"discrete_audio has extreme values (min={audio_min:.2f}, max={audio_max:.2f}). "
                    f"Expected roughly [-1, 1] range. This indicates corrupted audio. Skip this sample."
                )

                discrete_audio_values.append(audio)

                if audio_length > 80 * DEFAULT_SAMPLE_RATE:
                    chunk_size = 80 * DEFAULT_SAMPLE_RATE

                    total_code_len = 0

                    for start in range(0, audio_length, chunk_size):
                        end = min(start + chunk_size, audio_length)

                        if (
                            end < audio_length
                            and audio_length - end < MIN_DISCRETE_AUDIO_CHUNK_SAMPLES
                        ):
                            end = audio_length

                        chunk_length = end - start

                        assert chunk_length >= MIN_DISCRETE_AUDIO_CHUNK_SAMPLES, (
                            f"chunk_length={chunk_length} < {MIN_DISCRETE_AUDIO_CHUNK_SAMPLES}. This should never happen with our chunking logic. "
                            f"audio_length={audio_length}, start={start}, end={end}. Skip this sample."
                        )

                        mel_len = chunk_length // 160

                        assert mel_len > 0, (
                            f"mel_len={mel_len} is invalid (chunk_length={chunk_length}). "
                            f"This will cause illegal memory access in AudioEncoder. Skip this sample."
                        )

                        after_conv1 = (mel_len + 2 * 1 - 1 * (3 - 1) - 1) // 2 + 1
                        code_len = (after_conv1 + 2 * 1 - 1 * (3 - 1) - 1) // 2 + 1

                        assert code_len > 0, (
                            f"code_len={code_len} is invalid (mel_len={mel_len}, after_conv1={after_conv1}). "
                            f"This will cause illegal memory access. Skip this sample."
                        )

                        total_code_len += code_len

                        if end >= audio_length:
                            break

                    assert total_code_len > 0, (
                        f"total_code_len={total_code_len} is invalid after processing all chunks. "
                        f"audio_length={audio_length}. This should never happen. Skip this sample."
                    )

                    audio_duration_sec = audio_length / DEFAULT_SAMPLE_RATE
                    max_expected_codes = int(audio_duration_sec * 25 * 1.1)
                    assert total_code_len <= max_expected_codes, (
                        f"total_code_len={total_code_len} is suspiciously large (max_expected={max_expected_codes}). "
                        f"audio_length={audio_length} ({audio_duration_sec:.1f}s). "
                        f"Expected ~{int(audio_duration_sec * 25)} tokens (25 tokens/sec). "
                        f"This indicates calculation error. Skip this sample."
                    )

                    discrete_audio_query_lengths.append(total_code_len)
                else:
                    mel_len = audio_length // 160

                    assert mel_len > 0, (
                        f"mel_len={mel_len} is invalid (audio_length={audio_length}). "
                        f"This will cause illegal memory access in AudioEncoder. Skip this sample."
                    )

                    after_conv1 = (mel_len + 2 * 1 - 1 * (3 - 1) - 1) // 2 + 1
                    code_len = (after_conv1 + 2 * 1 - 1 * (3 - 1) - 1) // 2 + 1

                    assert code_len > 0, (
                        f"Calculated code_len={code_len} is invalid (audio_length={audio_length}, "
                        f"mel_len={mel_len}, after_conv1={after_conv1}). "
                        f"This indicates corrupted audio data. Skip this sample."
                    )

                    assert code_len <= 2048, (
                        f"code_len={code_len} exceeds freqs_cis max length (2048). "
                        f"Audio length: {audio_length / DEFAULT_SAMPLE_RATE:.1f}s (max ~82s for single chunk). "
                        f"Expected ~{int((audio_length / DEFAULT_SAMPLE_RATE) * 25)} tokens at 25 tokens/sec. "
                        f"This will cause illegal memory access in apply_rotary_emb. Skip this sample."
                    )

                    discrete_audio_query_lengths.append(code_len)

        img_start_ids = [
            i for i, token in enumerate(input_ids) if token == self.img_token
        ]
        assert len(img_start_ids) == len(mm_query_lengths)
        for i, length in zip(
            range(len(mm_query_lengths) - 1, -1, -1), mm_query_lengths[::-1]
        ):
            labels[img_start_ids[i] : img_start_ids[i] + 1] = [IGNORE_INDEX] * length
            input_ids[img_start_ids[i] : img_start_ids[i] + 1] = [
                self.img_token
            ] * length
            total_mm_query_length += length

        discrete_image_start_ids = [
            i for i, token in enumerate(input_ids) if token == self.discrete_image_token
        ]
        assert len(discrete_image_start_ids) == len(discrete_image_query_lengths)
        assert len(discrete_image_start_ids) == len(
            image_ratios
        ), "discrete_image_start_ids and image_ratios length mismatch"

        for idx in range(len(discrete_image_query_lengths) - 1, -1, -1):
            i = discrete_image_start_ids[idx]
            length = discrete_image_query_lengths[idx]
            ratio_token_id = image_ratios[idx]
            assert (
                length == 729
            ), f"discrete_image_query_length must be 729, but got {length}"

            token_sequence = [ratio_token_id]
            for token_idx in range(length):
                token_sequence.append(self.discrete_image_token)
                if (token_idx + 1) % 27 == 0:
                    token_sequence.append(self.discrete_image_eol_token)
            token_sequence.append(self.discrete_image_eof_token)

            total_length = len(token_sequence)
            if labels[i] == IGNORE_INDEX:
                labels[i : i + 1] = [IGNORE_INDEX] * total_length
            else:
                labels[i : i + 1] = token_sequence
            input_ids[i : i + 1] = token_sequence

        if self.train_video:
            vid_start_ids = [
                i for i, token in enumerate(input_ids) if token == self.video_token
            ]

            for idx in range(len(vid_start_ids) - 1, -1, -1):
                pos = vid_start_ids[idx]

                num_frames = int(video_grid_thw[idx][0])
                frame_query_length = video_query_lengths[idx]

                has_video_audio = (
                    idx < len(video_audio_query_lengths)
                    and video_audio_query_lengths[idx] > 0
                )

                if has_video_audio:
                    total_audio_tokens = video_audio_query_lengths[idx]

                    token_sequence = []

                    if num_frames > 0:

                        frame_base = frame_query_length // num_frames
                        frame_remainder = frame_query_length % num_frames

                        assert frame_remainder == 0, (
                            f"frame_query_length({frame_query_length}) must be divisible by num_frames({num_frames}). "
                            f"Each frame produces fixed number of tokens. Got remainder={frame_remainder}."
                        )

                        audio_base = total_audio_tokens // num_frames
                        audio_remainder = total_audio_tokens % num_frames

                        for frame_idx in range(num_frames):
                            frame_tokens = frame_base + (
                                1 if frame_idx < frame_remainder else 0
                            )
                            token_sequence.extend([self.video_token] * frame_tokens)

                            audio_tokens = audio_base + (
                                1 if frame_idx < audio_remainder else 0
                            )
                            if audio_tokens > 0:
                                token_sequence.extend(
                                    [self.video_audio_token] * audio_tokens
                                )
                    else:
                        token_sequence = [self.video_token] * frame_query_length
                else:
                    token_sequence = [self.video_token] * frame_query_length

                total_length = len(token_sequence)
                labels[pos : pos + 1] = [IGNORE_INDEX] * total_length
                input_ids[pos : pos + 1] = token_sequence

        if self.train_audio:
            audio_start_ids = [
                i for i, token in enumerate(input_ids) if token == self.audio_token
            ]
            assert len(audio_start_ids) == len(audio_query_lengths)
            for i, length in zip(
                range(len(audio_query_lengths) - 1, -1, -1), audio_query_lengths[::-1]
            ):
                labels[audio_start_ids[i] : audio_start_ids[i] + 1] = [
                    IGNORE_INDEX
                ] * length
                input_ids[audio_start_ids[i] : audio_start_ids[i] + 1] = [
                    self.audio_token
                ] * length

            discrete_audio_start_ids = [
                i
                for i, token in enumerate(input_ids)
                if token == self.discrete_audio_token
            ]

            assert len(discrete_audio_start_ids) == len(discrete_audio_query_lengths), (
                f"discrete_audio_start_ids count ({len(discrete_audio_start_ids)}) != "
                f"discrete_audio_query_lengths count ({len(discrete_audio_query_lengths)}). "
                f"This indicates a serious bug in preprocessor or corrupted data. Skip this sample."
            )

            for i, length in zip(
                range(len(discrete_audio_query_lengths) - 1, -1, -1),
                discrete_audio_query_lengths[::-1],
            ):
                assert 0 < length < 16000, (
                    f"discrete_audio_query_length={length} is out of valid range [1, 16000). "
                    f"Expected max ~15,000 for 600s audio at 25 tokens/sec. "
                    f"This can cause illegal memory access when creating embeddings. Skip this sample."
                )

                if labels[discrete_audio_start_ids[i]] == IGNORE_INDEX:
                    labels[
                        discrete_audio_start_ids[i] : discrete_audio_start_ids[i] + 1
                    ] = [IGNORE_INDEX] * length
                else:
                    labels[
                        discrete_audio_start_ids[i] : discrete_audio_start_ids[i] + 1
                    ] = [self.discrete_audio_token] * length
                input_ids[
                    discrete_audio_start_ids[i] : discrete_audio_start_ids[i] + 1
                ] = [self.discrete_audio_token] * length

        if self.sequence_parallel_size > 1:
            if len(input_ids) % self.sequence_parallel_size != 0:
                input_ids += [self.tokenizer.pad_token_id] * (
                    self.sequence_parallel_size
                    - (len(input_ids) % self.sequence_parallel_size)
                )
                labels += [IGNORE_INDEX] * (
                    self.sequence_parallel_size
                    - (len(labels) % self.sequence_parallel_size)
                )

        if not is_sft1:
            input_ids = torch.tensor(input_ids)
            labels = torch.tensor(labels)

        if self.mode == "train":
            if self.sample_min_length is not None and self.sample_min_length > 0:
                assert (
                    len(labels) >= self.sample_min_length
                ), "The sample is too short: {} < {}".format(
                    len(labels), self.sample_min_length
                )
            assert (
                len(labels) <= self.decoder_max_length
            ), "The sample exceeds decoder_max_len: {} > {}".format(
                len(labels), self.decoder_max_length
            )
            assert len(input_ids) == len(labels)

            if len(labels) < 30:
                raise ConditionalError(
                    "The sample is too short: {}".format(len(labels))
                )

            if torch.all(labels == IGNORE_INDEX):
                raise ConditionalError(
                    "Labels contain only IGNORE_INDEX, no training targets available"
                )

        sample = {
            "pixel_values": pixel_values,
            "discrete_pixel_values": discrete_pixel_values,
            "idx_for_debug": idx_for_debug,
            "input_ids": input_ids,
            "labels": labels,
            "queries": queries if len(queries) > 0 else None,
            "gts": gts if len(gts) > 0 else None,
            "mm_query_lengths": mm_query_lengths,
            "non_mm_query_lengths": len(labels) - total_mm_query_length,
            "total_length": len(labels),
            "data_name": config["data_name"],
            "data_type": config["data_type"],
            "img_start_ids": img_start_ids,
            "prompt": output.input_str,
            "options": config.get("options", None),
            "image_grid_thw": image_grid_thw,
            "pixel_values_videos": pixel_values_videos,
            "video_grid_thw": video_grid_thw,
            "video_audio_values": (
                video_audio_values if len(video_audio_values) > 0 else None
            ),
            "video_audio_masks": (
                video_audio_masks if len(video_audio_masks) > 0 else None
            ),
            "audio_values": audio_values,
            "discrete_audio_values": discrete_audio_values,
            "audio_masks": audio_masks,
            "dummy_pixel_values": dummy_pixel_values,
            "dummy_grid_thw": dummy_grid_thw,
            "dummy_audio_values": dummy_audio_values,
            "dummy_audio_masks": dummy_audio_masks,
            "dummy_pixel_values_videos": dummy_pixel_values_videos,
            "dummy_video_grid_thw": dummy_video_grid_thw,
            "dummy_video_audio_values": dummy_video_audio_values,
            "dummy_video_audio_masks": dummy_video_audio_masks,
        }

        return sample

    def _sampling_multiturn(
        self,
        turns,
        n_sample,
        multiturn_preserve_order=True,
        multiturn_continuous=False,
    ):
        new_turns = []
        sample_indices = []
        first_user_turn = True
        start_idx = 0
        for idx, turn in enumerate(turns):
            if turn["role"] in ["system", "tool_list"]:
                new_turns.append(turn)
                start_idx = idx + 1
                continue
            if turn["role"] == "user":
                image_nums = re.findall(r"<image_(\d+)>", turn["content"])
                if len(image_nums) == 0:
                    image_nums = re.findall(r"<\|image\|>", turn["content"])
                if len(image_nums) > 0:
                    if first_user_turn:
                        first_user_turn = False
                        continue
                    sample_indices.append([i for i in range(start_idx, idx)])
                    start_idx = idx
        sample_indices.append([i for i in range(start_idx, idx + 1)])
        n_sample = min(n_sample, len(sample_indices))
        if multiturn_continuous:
            start_index = random.randint(0, len(sample_indices) - n_sample)
            indices = range(start_index, start_index + n_sample)
        elif multiturn_preserve_order:
            indices = sorted(random.sample(range(len(sample_indices)), n_sample))
        else:
            indices = random.sample(range(len(sample_indices)), n_sample)
        sampled_indices = [sample_indices[i] for i in indices]
        new_turns = new_turns + [
            turns[i] for sampled_turns in sampled_indices for i in sampled_turns
        ]
        return new_turns