Profile Options

class TfliteDelegates(value)[source]

Bases: str, Enum

An enumeration.

QNN = 'qnn'

QNN_GPU = 'qnn-gpu'

NNAPI = 'nnapi'

NNAPI_GPU = 'nnapi-gpu'

GPU = 'gpu'

XNNPACK = 'xnnpack'

class ExecutionMode(value)[source]

Bases: str, Enum

An enumeration.

SEQUENTIAL = 'SEQUENTIAL'

PARALLEL = 'PARALLEL'

class GraphOptimizationLevel(value)[source]

Bases: str, Enum

An enumeration.

DISABLE_ALL = 'DISABLE_ALL'

ENABLE_BASIC = 'ENABLE_BASIC'

ENABLE_EXTENDED = 'ENABLE_EXTENDED'

ENABLE_ALL = 'ENABLE_ALL'

class OnnxQnnHtpPerformanceMode(value)[source]

Bases: str, Enum

An enumeration.

DEFAULT = 'default'

LOW_POWER_SAVER = 'low_power_saver'

POWER_SAVER = 'power_saver'

HIGH_POWER_SAVER = 'high_power_saver'

LOW_BALANCED = 'low_balanced'

BALANCED = 'balanced'

HIGH_PERFORMANCE = 'high_performance'

SUSTAINED_HIGH_PERFORMANCE = 'sustained_high_performance'

BURST = 'burst'

class OnnxExecutionProviders(value)[source]

Bases: str, Enum

An enumeration.

QNN = 'qnn'

QNN_GPU = 'qnn-gpu'

DIRECTML = 'directml'

class QnnLogLevel(value)[source]

Bases: str, Enum

An enumeration.

K_LOG_OFF = 'kLogOff'

K_LOG_LEVEL_ERROR = 'kLogLevelError'

K_LOG_LEVEL_WARN = 'kLogLevelWarn'

K_LOG_LEVEL_INFO = 'kLogLevelInfo'

K_LOG_LEVEL_VERBOSE = 'kLogLevelVerbose'

K_LOG_LEVEL_DEBUG = 'kLogLevelDebug'

class QnnGraphPriority(value)[source]

Bases: str, Enum

An enumeration.

K_QNN_PRIORITY_DEFAULT = 'kQnnPriorityDefault'

K_QNN_PRIORITY_LOW = 'kQnnPriorityLow'

K_QNN_PRIORITY_NORMAL = 'kQnnPriorityNormal'

K_QNN_PRIORITY_NORMAL_HIGH = 'kQnnPriorityNormalHigh'

K_QNN_PRIORITY_HIGH = 'kQnnPriorityHigh'

K_QNN_PRIORITY_UNDEFINED = 'kQnnPriorityUndefined'

class QnnGpuPrecision(value)[source]

Bases: str, Enum

An enumeration.

K_GPU_USER_PROVIDED = 'kGpuUserProvided'

K_GPU_FP32 = 'kGpuFp32'

K_GPU_FP16 = 'kGpuFp16'

K_GPU_HYBRID = 'kGpuHybrid'

class QnnGpuPerformanceMode(value)[source]

Bases: str, Enum

An enumeration.

K_GPU_DEFAULT = 'kGpuDefault'

K_GPU_HIGH = 'kGpuHigh'

K_GPU_NORMAL = 'kGpuNormal'

K_GPU_LOW = 'kGpuLow'

class QnnDspPerformanceMode(value)[source]

Bases: str, Enum

An enumeration.

K_DSP_LOW_POWER_SAVER = 'kDspLowPowerSaver'

K_DSP_POWER_SAVER = 'kDspPowerSaver'

K_DSP_HIGH_POWER_SAVER = 'kDspHighPowerSaver'

K_DSP_LOW_BALANCED = 'kDspLowBalanced'

K_DSP_BALANCED = 'kDspBalanced'

K_DSP_HIGH_PERFORMANCE = 'kDspHighPerformance'

K_DPS_SUSTAINED_HIGH_PERFORMANCE = 'kDspSustainedHighPerformance'

K_DSP_BURST = 'kDspBurst'

class QnnDspEncoding(value)[source]

Bases: str, Enum

An enumeration.

K_DSP_STATIC = 'kDspStatic'

K_DSP_DYNAMIC = 'kDspDynamic'

class TfliteQnnHtpPerformanceMode(value)[source]

Bases: str, Enum

An enumeration.

K_HTP_LOW_POWER_SAVER = 'kHtpLowPowerSaver'

K_HTP_POWER_SAVER = 'kHtpPowerSaver'

K_HTP_HIGH_POWER_SAVER = 'kHtpHighPowerSaver'

K_HTP_LOW_BALANCED = 'kHtpLowBalanced'

K_HTP_BALANCED = 'kHtpBalanced'

K_HTP_HIGH_PERFORMANCE = 'kHtpHighPerformance'

K_HTP_SUSTAINED_HIGH_PERFORMANCE = 'kHtpSustainedHighPerformance'

K_HTP_BURST = 'kHtpBurst'

class QnnHtpPrecision(value)[source]

Bases: str, Enum

An enumeration.

K_HTP_QUANTIZED = 'kHtpQuantized'

K_HTP_FP16 = 'kHtpFp16'

class QnnHtpOptimizationStrategy(value)[source]

Bases: str, Enum

An enumeration.

K_HTP_OPTIMIZE_FOR_INFERENCE = 'kHtpOptimizeForInference'

K_HTP_OPTIMIZE_FOR_PREPARE = 'kHtpOptimizeForPrepare'

class GpuInferencePreference(value)[source]

Bases: str, Enum

An enumeration.

TFLITE_GPU_INFERENCE_PREFERENCE_FAST_SINGLE_ANSWER = 'TFLITE_GPU_INFERENCE_PREFERENCE_FAST_SINGLE_ANSWER'

TFLITE_GPU_INFERENCE_PREFERENCE_SUSTAINED_SPEED = 'TFLITE_GPU_INFERENCE_PREFERENCE_SUSTAINED_SPEED'

TFLITE_GPU_INFERENCE_PREFERENCE_BALANCED = 'TFLITE_GPU_INFERENCE_PREFERENCE_BALANCED'

class GpuInferencePriority(value)[source]

Bases: str, Enum

An enumeration.

TFLITE_GPU_INFERENCE_PREFERENCE_BALANCED = 'TFLITE_GPU_INFERENCE_PREFERENCE_BALANCED'

TFLITE_GPU_INFERENCE_PRIORITY_MAX_PRECISION = 'TFLITE_GPU_INFERENCE_PRIORITY_MAX_PRECISION'

TFLITE_GPU_INFERENCE_PRIORITY_MIN_LATENCY = 'TFLITE_GPU_INFERENCE_PRIORITY_MIN_LATENCY'

TFLITE_GPU_INFERENCE_PRIORITY_MIN_MEMORY_USAGE = 'TFLITE_GPU_INFERENCE_PRIORITY_MIN_MEMORY_USAGE'

class NnapiExecutionPreference(value)[source]

Bases: str, Enum

An enumeration.

K_LOW_POWER = 'kLowPower'

K_FAST_SINGLE_ANSWER = 'kFastSingleAnswer'

K_SUSTAINED_SPEED = 'kSustainedSpeed'

class ContextErrorReportingOptionsLevel(value)[source]

Bases: str, Enum

An enumeration.

BRIEF = 'BRIEF'

DETAILED = 'DETAILED'

class Priority(value)[source]

Bases: str, Enum

An enumeration.

LOW = 'LOW'

NORMAL = 'NORMAL'

NORMAL_HIGH = 'NORMAL_HIGH'

HIGH = 'HIGH'

class ContextGpuPerformanceHint(value)[source]

Bases: str, Enum

An enumeration.

LOW = 'LOW'

NORMAL = 'NORMAL'

HIGH = 'HIGH'

class ContextHtpPerformanceMode(value)[source]

Bases: str, Enum

An enumeration.

EXTREME_POWER_SAVER = 'EXTREME_POWER_SAVER'

LOW_POWER_SAVER = 'LOW_POWER_SAVER'

POWER_SAVER = 'POWER_SAVER'

HIGH_POWER_SAVER = 'HIGH_POWER_SAVER'

LOW_BALANCED = 'LOW_BALANCED'

BALANCED = 'BALANCED'

HIGH_PERFORMANCE = 'HIGH_PERFORMANCE'

SUSTAINED_HIGH_PERFORMANCE = 'SUSTAINED_HIGH_PERFORMANCE'

BURST = 'BURST'

class DefaultGraphGpuPrecision(value)[source]

Bases: str, Enum

An enumeration.

FLOAT32 = 'FLOAT32'

FLOAT16 = 'FLOAT16'

HYBRID = 'HYBRID'

USER_PROVIDED = 'USER_PROVIDED'

class DefaultGraphHtpOptimizationType(value)[source]

Bases: str, Enum

An enumeration.

FINALIZE_OPTIMIZATION_FLAG = 'FINALIZE_OPTIMIZATION_FLAG'

class DefaultGraphHtpPrecision(value)[source]

Bases: str, Enum

An enumeration.

FLOAT16 = 'FLOAT16'

class OnnxOptions(execution_mode: Union[netspresso.np_qai.options.profile.ExecutionMode, NoneType] = <ExecutionMode.SEQUENTIAL: 'SEQUENTIAL'>, intra_op_num_threads: Union[int, NoneType] = 0, inter_op_num_threads: Union[int, NoneType] = 0, enable_memory_pattern: Union[bool, NoneType] = False, enable_cpu_memory_arena: Union[bool, NoneType] = False, graph_optimization_level: Union[netspresso.np_qai.options.profile.GraphOptimizationLevel, NoneType] = <GraphOptimizationLevel.ENABLE_ALL: 'ENABLE_ALL'>)[source]

Bases: object

execution_mode: ExecutionMode | None = 'SEQUENTIAL'

intra_op_num_threads: int | None = 0

inter_op_num_threads: int | None = 0

enable_memory_pattern: bool | None = False

enable_cpu_memory_arena: bool | None = False

graph_optimization_level: GraphOptimizationLevel | None = 'ENABLE_ALL'

to_cli_string() → str[source]

class OnnxQnnOptions(execution_mode: Union[netspresso.np_qai.options.profile.ExecutionMode, NoneType] = <ExecutionMode.SEQUENTIAL: 'SEQUENTIAL'>, intra_op_num_threads: Union[int, NoneType] = 0, inter_op_num_threads: Union[int, NoneType] = 0, enable_memory_pattern: Union[bool, NoneType] = False, enable_cpu_memory_arena: Union[bool, NoneType] = False, graph_optimization_level: Union[netspresso.np_qai.options.profile.GraphOptimizationLevel, NoneType] = <GraphOptimizationLevel.ENABLE_ALL: 'ENABLE_ALL'>, qnn_htp_performance_mode: Union[netspresso.np_qai.options.profile.OnnxQnnHtpPerformanceMode, NoneType] = <OnnxQnnHtpPerformanceMode.BURST: 'burst'>, qnn_htp_graph_optimization_mode: Union[str, NoneType] = 3, qnn_enable_htp_fp16_precision: Union[str, NoneType] = 1)[source]

Bases: OnnxOptions

qnn_htp_performance_mode: OnnxQnnHtpPerformanceMode | None = 'burst'

qnn_htp_graph_optimization_mode: str | None = 3

qnn_enable_htp_fp16_precision: str | None = 1

to_cli_string() → str[source]

class TfliteOptions(enable_fallback: bool | NoneType = True, invoke_interpreter_on_cold_load: bool | NoneType = False, allow_fp32_as_fp16: bool | NoneType = True, force_opengl: bool | NoneType = False, number_of_threads: int | NoneType = -1, release_dynamic_tensors: bool | NoneType = False)[source]

Bases: object

enable_fallback: bool | None = True

invoke_interpreter_on_cold_load: bool | None = False

allow_fp32_as_fp16: bool | None = True

force_opengl: bool | None = False

number_of_threads: int | None = -1

release_dynamic_tensors: bool | None = False

to_cli_string() → str[source]

class TfliteQnnOptions(enable_fallback: Union[bool, NoneType] = True, invoke_interpreter_on_cold_load: Union[bool, NoneType] = False, allow_fp32_as_fp16: Union[bool, NoneType] = True, force_opengl: Union[bool, NoneType] = False, number_of_threads: Union[int, NoneType] = -1, release_dynamic_tensors: Union[bool, NoneType] = False, qnn_log_level: Union[netspresso.np_qai.options.profile.QnnLogLevel, NoneType] = <QnnLogLevel.K_LOG_LEVEL_WARN: 'kLogLevelWarn'>, qnn_graph_priority: Union[netspresso.np_qai.options.profile.QnnGraphPriority, NoneType] = <QnnGraphPriority.K_QNN_PRIORITY_DEFAULT: 'kQnnPriorityDefault'>, qnn_gpu_precision: Union[netspresso.np_qai.options.profile.QnnGpuPrecision, NoneType] = <QnnGpuPrecision.K_GPU_FP16: 'kGpuFp16'>, qnn_gpu_performance_mode: Union[netspresso.np_qai.options.profile.QnnGpuPerformanceMode, NoneType] = <QnnGpuPerformanceMode.K_GPU_HIGH: 'kGpuHigh'>, qnn_dsp_performance_mode: Union[netspresso.np_qai.options.profile.QnnDspPerformanceMode, NoneType] = <QnnDspPerformanceMode.K_DSP_BURST: 'kDspBurst'>, qnn_dsp_encoding: Union[netspresso.np_qai.options.profile.QnnDspEncoding, NoneType] = <QnnDspEncoding.K_DSP_STATIC: 'kDspStatic'>, qnn_htp_performance_mode: Union[netspresso.np_qai.options.profile.TfliteQnnHtpPerformanceMode, NoneType] = <TfliteQnnHtpPerformanceMode.K_HTP_BURST: 'kHtpBurst'>, qnn_htp_precision: Union[netspresso.np_qai.options.profile.QnnHtpPrecision, NoneType] = <QnnHtpPrecision.K_HTP_FP16: 'kHtpFp16'>, qnn_htp_optimization_strategy: Union[netspresso.np_qai.options.profile.QnnHtpOptimizationStrategy, NoneType] = <QnnHtpOptimizationStrategy.K_HTP_OPTIMIZE_FOR_INFERENCE: 'kHtpOptimizeForInference'>, qnn_htp_use_conv_hmx: Union[bool, NoneType] = True, qnn_htp_use_fold_relu: Union[bool, NoneType] = False, qnn_htp_vtcm_size: Union[int, NoneType] = None, qnn_htp_num_hvx_threads: Union[int, NoneType] = None)[source]

Bases: TfliteOptions

qnn_log_level: QnnLogLevel | None = 'kLogLevelWarn'

qnn_graph_priority: QnnGraphPriority | None = 'kQnnPriorityDefault'

qnn_gpu_precision: QnnGpuPrecision | None = 'kGpuFp16'

qnn_gpu_performance_mode: QnnGpuPerformanceMode | None = 'kGpuHigh'

qnn_dsp_performance_mode: QnnDspPerformanceMode | None = 'kDspBurst'

qnn_dsp_encoding: QnnDspEncoding | None = 'kDspStatic'

qnn_htp_performance_mode: TfliteQnnHtpPerformanceMode | None = 'kHtpBurst'

qnn_htp_precision: QnnHtpPrecision | None = 'kHtpFp16'

qnn_htp_optimization_strategy: QnnHtpOptimizationStrategy | None = 'kHtpOptimizeForInference'

qnn_htp_use_conv_hmx: bool | None = True

qnn_htp_use_fold_relu: bool | None = False

qnn_htp_vtcm_size: int | None = None

qnn_htp_num_hvx_threads: int | None = None

to_cli_string() → str[source]

class TfliteGpuv2Options(enable_fallback: Union[bool, NoneType] = True, invoke_interpreter_on_cold_load: Union[bool, NoneType] = False, allow_fp32_as_fp16: Union[bool, NoneType] = True, force_opengl: Union[bool, NoneType] = False, number_of_threads: Union[int, NoneType] = -1, release_dynamic_tensors: Union[bool, NoneType] = False, gpu_inference_preference: Union[netspresso.np_qai.options.profile.GpuInferencePreference, NoneType] = <GpuInferencePreference.TFLITE_GPU_INFERENCE_PREFERENCE_SUSTAINED_SPEED: 'TFLITE_GPU_INFERENCE_PREFERENCE_SUSTAINED_SPEED'>, gpu_inference_priority1: Union[netspresso.np_qai.options.profile.GpuInferencePriority, NoneType] = <GpuInferencePriority.TFLITE_GPU_INFERENCE_PRIORITY_MIN_LATENCY: 'TFLITE_GPU_INFERENCE_PRIORITY_MIN_LATENCY'>, gpu_inference_priority2: Union[netspresso.np_qai.options.profile.GpuInferencePriority, NoneType] = <GpuInferencePriority.TFLITE_GPU_INFERENCE_PRIORITY_MIN_MEMORY_USAGE: 'TFLITE_GPU_INFERENCE_PRIORITY_MIN_MEMORY_USAGE'>, gpu_inference_priority3: Union[netspresso.np_qai.options.profile.GpuInferencePriority, NoneType] = <GpuInferencePriority.TFLITE_GPU_INFERENCE_PRIORITY_MAX_PRECISION: 'TFLITE_GPU_INFERENCE_PRIORITY_MAX_PRECISION'>, gpu_max_delegated_partitions: Union[int, NoneType] = 1)[source]

Bases: TfliteOptions

gpu_inference_preference: GpuInferencePreference | None = 'TFLITE_GPU_INFERENCE_PREFERENCE_SUSTAINED_SPEED'

gpu_inference_priority1: GpuInferencePriority | None = 'TFLITE_GPU_INFERENCE_PRIORITY_MIN_LATENCY'

gpu_inference_priority2: GpuInferencePriority | None = 'TFLITE_GPU_INFERENCE_PRIORITY_MIN_MEMORY_USAGE'

gpu_inference_priority3: GpuInferencePriority | None = 'TFLITE_GPU_INFERENCE_PRIORITY_MAX_PRECISION'

gpu_max_delegated_partitions: int | None = 1

to_cli_string() → str[source]

class TfliteNnapiOptions(enable_fallback: Union[bool, NoneType] = True, invoke_interpreter_on_cold_load: Union[bool, NoneType] = False, allow_fp32_as_fp16: Union[bool, NoneType] = True, force_opengl: Union[bool, NoneType] = False, number_of_threads: Union[int, NoneType] = -1, release_dynamic_tensors: Union[bool, NoneType] = False, nnapi_execution_preference: Union[netspresso.np_qai.options.profile.NnapiExecutionPreference, NoneType] = <NnapiExecutionPreference.K_SUSTAINED_SPEED: 'kSustainedSpeed'>, nnapi_max_number_delegated_partitions: Union[int, NoneType] = 3, nnapi_allow_fp16: Union[bool, NoneType] = True)[source]

Bases: TfliteOptions

nnapi_execution_preference: NnapiExecutionPreference | None = 'kSustainedSpeed'

nnapi_max_number_delegated_partitions: int | None = 3

nnapi_allow_fp16: bool | None = True

to_cli_string() → str[source]

class QnnOptions(default_graph_htp_optimization_value: Union[int, NoneType] = None, context_async_execution_queue_depth_numeric: Union[int, NoneType] = None, context_enable_graphs: Union[List[str], NoneType] = None, context_error_reporting_options_level: Union[netspresso.np_qai.options.profile.ContextErrorReportingOptionsLevel, NoneType] = None, context_error_reporting_options_storage_limit: Union[int, NoneType] = None, context_memory_limit_hint: Union[int, NoneType] = None, context_priority: Union[netspresso.np_qai.options.profile.Priority, NoneType] = None, context_gpu_performance_hint: Union[netspresso.np_qai.options.profile.ContextGpuPerformanceHint, NoneType] = <ContextGpuPerformanceHint.HIGH: 'HIGH'>, context_gpu_use_gl_buffers: Union[bool, NoneType] = None, context_htp_performance_mode: Union[netspresso.np_qai.options.profile.ContextHtpPerformanceMode, NoneType] = <ContextHtpPerformanceMode.BURST: 'BURST'>, default_graph_priority: Union[netspresso.np_qai.options.profile.Priority, NoneType] = True, default_graph_gpu_precision: Union[netspresso.np_qai.options.profile.DefaultGraphGpuPrecision, NoneType] = <DefaultGraphGpuPrecision.USER_PROVIDED: 'USER_PROVIDED'>, default_graph_gpu_disable_memory_optimizations: Union[bool, NoneType] = None, default_graph_gpu_disable_node_optimizations: Union[bool, NoneType] = None, default_graph_gpu_disable_queue_recording: Union[bool, NoneType] = None, default_graph_htp_disable_fold_relu_activation_into_conv: Union[bool, NoneType] = False, default_graph_htp_num_hvx_threads: Union[int, NoneType] = 4, default_graph_htp_optimization_type: Union[netspresso.np_qai.options.profile.DefaultGraphHtpOptimizationType, NoneType] = <DefaultGraphHtpOptimizationType.FINALIZE_OPTIMIZATION_FLAG: 'FINALIZE_OPTIMIZATION_FLAG'>, default_graph_htp_precision: Union[netspresso.np_qai.options.profile.DefaultGraphHtpPrecision, NoneType] = <DefaultGraphHtpPrecision.FLOAT16: 'FLOAT16'>, default_graph_htp_disable_short_depth_conv_on_hmx: Union[bool, NoneType] = False, default_graph_htp_vtcm_size: Union[int, NoneType] = 4)[source]

Bases: object

context_async_execution_queue_depth_numeric: int | None = None

context_enable_graphs: List[str] | None = None

context_error_reporting_options_level: ContextErrorReportingOptionsLevel | None = None

context_error_reporting_options_storage_limit: int | None = None

context_memory_limit_hint: int | None = None

context_priority: Priority | None = None

context_gpu_performance_hint: ContextGpuPerformanceHint | None = 'HIGH'

context_gpu_use_gl_buffers: bool | None = None

context_htp_performance_mode: ContextHtpPerformanceMode | None = 'BURST'

default_graph_priority: Priority | None = True

default_graph_gpu_precision: DefaultGraphGpuPrecision | None = 'USER_PROVIDED'

default_graph_gpu_disable_memory_optimizations: bool | None = None

default_graph_gpu_disable_node_optimizations: bool | None = None

default_graph_gpu_disable_queue_recording: bool | None = None

default_graph_htp_disable_fold_relu_activation_into_conv: bool | None = False

default_graph_htp_num_hvx_threads: int | None = 4

default_graph_htp_optimization_type: DefaultGraphHtpOptimizationType | None = 'FINALIZE_OPTIMIZATION_FLAG'

default_graph_htp_optimization_value: int | None = None

default_graph_htp_precision: DefaultGraphHtpPrecision | None = 'FLOAT16'

default_graph_htp_disable_short_depth_conv_on_hmx: bool | None = False

default_graph_htp_vtcm_size: int | None = 4

to_cli_string() → str[source]

Bases: CommonOptions

dequantize_outputs: bool | None = True

tflite_delegates: List[TfliteDelegates] | None = None

tflite_options: TfliteOptions | TfliteQnnOptions | TfliteGpuv2Options | TfliteNnapiOptions | None = None

qnn_options: QnnOptions | None = None

onnx_options: OnnxOptions | OnnxQnnOptions | None = None

onnx_execution_providers: List[OnnxExecutionProviders] | None = None

max_profiler_iterations: int | None = 100

max_profiler_time: int | None = 600

handle_tflite_options() → str[source]

handle_onnx_options() → str[source]

handle_qnn_options() → str[source]

handle_common_options() → List[str][source]

to_cli_string() → str[source]

Bases: ProfileCommonOptions

Profile options for the model.

Note

For details, see ProfileOptions in QAI Hub API.

Bases: ProfileCommonOptions

Inference options for the model.

Note

For details, see InferenceOptions in QAI Hub API.