2020年11月27日金曜日

Python で制御文字 (control character) を削除する方法

概要

制御文字は例えば改行やタブ文字のことを指します
Python で制御文字を操作する場合は unicodedata が便利です

環境

  • macOS 10.15.7
  • Python 3.8.5

サンプルコード

import unicodedata

def remove_control_characters(s):
    return "".join(ch for ch in s if unicodedata.category(ch)[0]!="C")

print('\r' + "return")
print('\t' + "tab")
print(remove_control_characters('\r') + "return")
print(remove_control_characters('\t') + "tab")

結果

こんな感じですべてブランクで置換してくれます

return
        tab
return
tab

参考サイト

0 件のコメント:

コメントを投稿