日本人のアーティスト名はSMAP・B'zのようにアルファベットの場合や、嵐・米津玄師のように漢字の場合、AKB48のようにアルファベットと数字が混ざった場合など様々なパターンが存在します。
では、どのパターンが最も多いのでしょうか?
今回は日本人アーティスト名のパターンに関して分析します。
データ
日本人アーティストの一覧データはこちらのサイトから抽出します。ここに記載されている3653組のアーティストを今回の分析対象とします。
また、抽出方法はこちらのサイトを参考にしました。
前処理
以下のようなデータが作成できたので、次は名前のパターンを判別したいと思います。
文字列としてはアルファベット、漢字、カタカナ、ひらがな、数字があるので、これらの内どれを使っているか、2種類以上使っている場合は「漢字+ひらがな」のように+で繋いで記載します。
def get_character_type(input_string):
# 正規表現パターンを定義
kanji_pattern = '[\u4E00-\u9FFF]+' # 漢字
katakana_pattern = '[\u30A0-\u30FF]+' # カタカナ
hiragana_pattern = '[\u3040-\u309F]+' # ひらがな
alphabet_pattern = '[a-zA-Z]+' # アルファベット
numeric_pattern = '[0-9]+' # 数字
# 文字列が特定の文字種か判定
if re.fullmatch(kanji_pattern, input_string):
return "漢字"
elif re.fullmatch(katakana_pattern, input_string):
return "カタカナ"
elif re.fullmatch(hiragana_pattern, input_string):
return "ひらがな"
elif re.fullmatch(alphabet_pattern, input_string):
return "アルファベット"
elif re.fullmatch(numeric_pattern, input_string):
return "数字"
else:
# 複合の場合、どの文字種が混じっているか判定
combinations = []
if re.search(kanji_pattern, input_string):
combinations.append("漢字")
if re.search(katakana_pattern, input_string):
combinations.append("カタカナ")
if re.search(hiragana_pattern, input_string):
combinations.append("ひらがな")
if re.search(alphabet_pattern, input_string):
combinations.append("アルファベット")
if re.search(numeric_pattern, input_string):
combinations.append("数字")
return " + ".join(combinations)
df['pattern'] = df['name'].apply(get_character_type)
無事以下のようにパターンが判別できました。
可視化
まず初めに、英語(アルファベット)と日本語(漢字、ひらがな、カタカナ)ではどちらが多いのかを確認します。
※数字を含む場合は、アルファベットと数字のみであれば「英語」に、日本語と数字のみであれば「日本語」に分類しています。
英語の方が少し多いようです。
また、日本語と英語のパターンも3%ほどですが存在します。
次に、日本語内にも漢字、カタカナ、ひらがな等の組み合わせが存在するので、各パターン毎の数を可視化してみます。
最も多いのはアルファベットのみのパターンで、2番目に多いのは漢字のみのパターンのようです。
(アルファベットのみ) SMAP、B'z、X Japanなど
(漢字のみ) 嵐、米津玄師、安室奈美恵など
宇多田ヒカル vs 浜崎あゆみ
「宇多田ヒカル」のような「漢字+カタカナ」のパターンと、「浜崎あゆみ」のような「漢字+ひらがな」のパターンはほぼ同数のようです。
ゆず vs コブクロ
「ゆず」のような「ひらがなのみ」のパターンと、「コブクロ」のような「カタカナのみ」のパターンでは、「カタカナのみ」のパターンの方が圧倒的に多いようです。
数字
次に「AKB48」のような名前に数字を含むアーティストについてみてみます。
数字を含むアーティストは全体の内僅か3%のみのようです。
中でも、「ひらがな+数字」のパターンは「かりゆし58」のみでした。
また、数字だけのアーティストも存在するようです。
まとめ
今回はアーティスト名のパターンを分析しました。今回扱ったデータはアーティスト名しか含まれてませんでしたが、別のデータを使って、男女別や、ソロなのかグループなのかで分類して名前のパターンに傾向があるのかを深掘りするのも面白そうですね。
- 英語と日本語とでは英語の方が多い
- パターンとしては多い順に、アルファベット、漢字、カタカナである
- 数字を含むアーティストは3%のみ