アーティストは英語名と日本語名どちらが多いのか

日本人のアーティスト名はSMAP・B'zのようにアルファベットの場合や、嵐・米津玄師のように漢字の場合、AKB48のようにアルファベットと数字が混ざった場合など様々なパターンが存在します。

では、どのパターンが最も多いのでしょうか?

今回は日本人アーティスト名のパターンに関して分析します。

データ

日本人アーティストの一覧データはこちらのサイトから抽出します。ここに記載されている3653組のアーティストを今回の分析対象とします。

rockinon.com

また、抽出方法はこちらのサイトを参考にしました。

www.wizard-notes.com

前処理

以下のようなデータが作成できたので、次は名前のパターンを判別したいと思います。

文字列としてはアルファベット、漢字、カタカナ、ひらがな、数字があるので、これらの内どれを使っているか、2種類以上使っている場合は「漢字+ひらがな」のように+で繋いで記載します。


def get_character_type(input_string):
    # 正規表現パターンを定義
    kanji_pattern = '[\u4E00-\u9FFF]+'  # 漢字
    katakana_pattern = '[\u30A0-\u30FF]+'  # カタカナ
    hiragana_pattern = '[\u3040-\u309F]+'  # ひらがな
    alphabet_pattern = '[a-zA-Z]+'  # アルファベット
    numeric_pattern = '[0-9]+'  # 数字

    # 文字列が特定の文字種か判定
    if re.fullmatch(kanji_pattern, input_string):
        return "漢字"
    elif re.fullmatch(katakana_pattern, input_string):
        return "カタカナ"
    elif re.fullmatch(hiragana_pattern, input_string):
        return "ひらがな"
    elif re.fullmatch(alphabet_pattern, input_string):
        return "アルファベット"
    elif re.fullmatch(numeric_pattern, input_string):
        return "数字"
    else:
        # 複合の場合、どの文字種が混じっているか判定
        combinations = []
        if re.search(kanji_pattern, input_string):
            combinations.append("漢字")
        if re.search(katakana_pattern, input_string):
            combinations.append("カタカナ")
        if re.search(hiragana_pattern, input_string):
            combinations.append("ひらがな")
        if re.search(alphabet_pattern, input_string):
            combinations.append("アルファベット")
        if re.search(numeric_pattern, input_string):
            combinations.append("数字")
        return " + ".join(combinations)
    
df['pattern'] = df['name'].apply(get_character_type)

無事以下のようにパターンが判別できました。

可視化

まず初めに、英語(アルファベット)と日本語(漢字、ひらがな、カタカナ)ではどちらが多いのかを確認します。

※数字を含む場合は、アルファベットと数字のみであれば「英語」に、日本語と数字のみであれば「日本語」に分類しています。

英語の方が少し多いようです。

また、日本語と英語のパターンも3%ほどですが存在します。

(例)Official髭男dism、米米CLUBなど

 

次に、日本語内にも漢字、カタカナ、ひらがな等の組み合わせが存在するので、各パターン毎の数を可視化してみます。

最も多いのはアルファベットのみのパターンで、2番目に多いのは漢字のみのパターンのようです。

(アルファベットのみ) SMAP、B'z、X Japanなど

(漢字のみ) 嵐、米津玄師、安室奈美恵など

 

宇多田ヒカル vs 浜崎あゆみ

宇多田ヒカル」のような「漢字+カタカナ」のパターンと、「浜崎あゆみ」のような「漢字+ひらがな」のパターンはほぼ同数のようです。

 

ゆず vs コブクロ

「ゆず」のような「ひらがなのみ」のパターンと、「コブクロ」のような「カタカナのみ」のパターンでは、「カタカナのみ」のパターンの方が圧倒的に多いようです。



数字

次に「AKB48」のような名前に数字を含むアーティストについてみてみます。

数字を含むアーティストは全体の内僅か3%のみのようです。

中でも、「ひらがな+数字」のパターンは「かりゆし58」のみでした。

また、数字だけのアーティストも存在するようです。



まとめ

今回はアーティスト名のパターンを分析しました。今回扱ったデータはアーティスト名しか含まれてませんでしたが、別のデータを使って、男女別や、ソロなのかグループなのかで分類して名前のパターンに傾向があるのかを深掘りするのも面白そうですね。

  • 英語と日本語とでは英語の方が多い
  • パターンとしては多い順に、アルファベット、漢字、カタカナである
  • 数字を含むアーティストは3%のみ