modelscope-funasr中想要支持一种新的语言，应该要修改tokenize吧

modelscope-funasr 似乎是一个与模型范围（ModelScope）和自动语音识别（ASR）相关的项目或库。如果你想要在 modelscope-funasr 中支持一种新的语言，那么通常确实需要关注分词（tokenization）的部分，因为分词是将连续的语音或文本切分成有意义的单元（如单词、短语或符号）的过程，对于ASR系统来说是非常关键的。

不过，要完整地支持一种新语言，你可能还需要考虑以下几个方面：

语音数据：首先，你需要有该语言的语音数据，包括对应的文本标签。这些数据用于训练ASR模型，使其能够识别该语言的语音。

语言模型：语言模型对于ASR系统来说也是非常重要的，它可以帮助系统预测和选择最可能的文本序列。你需要为该语言构建或获取一个合适的语言模型。

声学模型：声学模型负责将语音信号转换成文本。如果你使用的是深度学习模型，那么你可能需要训练或调整一个适合该语言的声学模型。

分词（Tokenization）：如你所说，分词是将语音或文本转换成模型可以处理的单元的过程。对于新语言，你可能需要定义一套适合该语言的分词规则或工具。

字典和发音词典：一个包含该语言中所有单词及其发音的字典或发音词典对于ASR系统来说是非常有用的。这可以帮助系统更准确地识别语音中的单词。

后处理：在ASR系统的输出端，可能还需要一些后处理步骤来纠正或优化识别结果，比如使用语言规则或词典来修正错误。

在修改 modelscope-funasr 以支持新语言时，你可能需要查阅该项目的文档和源代码，了解它是如何处理分词和其他ASR相关任务的。然后，你可以根据新语言的特点和需求来修改或扩展相应的部分。这可能涉及到编写新的分词器、调整模型配置、添加新的数据预处理步骤等。

请注意，支持新语言可能需要大量的工作和资源，包括收集和处理语音数据、训练和调整模型等。因此，在开始之前，最好先对项目的架构和需求有一个清晰的了解，并制定一个详细的计划。