草庐IT

高棉语

全部标签

python - 分词高棉语的可行解决方案?

我正在研究一种解决方案,将长行的高棉语(柬埔寨语)拆分为单个单词(UTF-8)。高棉语单词之间不使用空格。有一些解决方案,但它们还远远不够(here和here),而且这些项目已经半途而废。这是需要拆分的高棉示例行(它们可以比这更长):ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូវហើយដែលអ្នកមិនអាចរកការទាំងអស់នោះដោយសារការប្រព្រឹត្តរបស់អ្នកឡើយ។创建拆分高棉语单词的可行解决方案的目标是双重的:它将鼓励那些使用高棉遗留(

python - 分词高棉语的可行解决方案?

我正在研究一种解决方案,将长行的高棉语(柬埔寨语)拆分为单个单词(UTF-8)。高棉语单词之间不使用空格。有一些解决方案,但它们还远远不够(here和here),而且这些项目已经半途而废。这是需要拆分的高棉示例行(它们可以比这更长):ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូវហើយដែលអ្នកមិនអាចរកការទាំងអស់នោះដោយសារការប្រព្រឹត្តរបស់អ្នកឡើយ។创建拆分高棉语单词的可行解决方案的目标是双重的:它将鼓励那些使用高棉遗留(