Spaces:

gaeunseo
/

Interface2

Sleeping

App Files Files Community

gaeunseo commited on Feb 10

Commit

8570037

verified ·

1 Parent(s): f355cf7

Create app.py

Browse files

Files changed (1) hide show

app.py +112 -0

app.py ADDED Viewed

	@@ -0,0 +1,112 @@

+import os
+import random
+import threading
+import pandas as pd
+import gradio as gr
+from datasets import load_dataset
+# 데이터 파일 및 스레드 락 설정
+DATA_FILE = "global_data.csv"
+data_lock = threading.Lock()
+def initialize_global_data():
+    """
+    DATA_FILE이 존재하지 않으면, gaeunseo/Taskmaster_sample_data 데이터셋을 로드하여 DataFrame으로 변환한 후 CSV 파일로 저장합니다.
+    이미 파일이 있으면 파일에서 데이터를 읽어 DataFrame을 반환합니다.
+    """
+    if not os.path.exists(DATA_FILE):
+        ds = load_dataset("gaeunseo/Taskmaster_sample_data", split="train")
+        data = ds.to_pandas()
+        # 필요한 컬럼이 없으면 추가합니다.
+        if "used" not in data.columns:
+            data["used"] = False
+        if "overlapping" not in data.columns:
+            data["overlapping"] = ""
+        if "text" not in data.columns:
+            data["text"] = ""
+        data.to_csv(DATA_FILE, index=False)
+        return data
+    else:
+        with data_lock:
+            df = pd.read_csv(DATA_FILE)
+        return df
+def load_global_data():
+    """CSV 파일에서 global_data DataFrame을 읽어옵니다."""
+    with data_lock:
+        df = pd.read_csv(DATA_FILE)
+    return df
+def save_global_data(df):
+    """DataFrame을 CSV 파일에 저장합니다."""
+    with data_lock:
+        df.to_csv(DATA_FILE, index=False)
+# CSV 파일에 저장된 global_data 초기화
+global_data = initialize_global_data()
+def get_random_row_from_dataset():
+    """
+    CSV 파일에 저장된 global_data에서,
+      1. conversation_id별로 그룹화하고,
+      2. 각 그룹에서 모든 행의 used 컬럼이 False이며, 그룹 내에 overlapping 컬럼이 "TT"인 행이 존재하는 그룹만 valid로 간주합니다.
+    valid한 그룹들 중 랜덤하게 하나의 그룹을 선택한 후,
+      - 해당 그룹의 모든 행의 used 값을 True로 업데이트(즉, 전체 그룹을 할당)하고 CSV 파일에 저장합니다.
+      - 선택된 그룹 내에서 overlapping 컬럼이 "TT", "GT"가 아닌 대화들 중에서 대화 2개를 랜덤하게 선택하여,
+        두 턴의 대화를 결합한 문자열을 반환합니다.
+    """
+    global global_data
+    global_data = load_global_data()  # 최신 데이터 로드
+    groups = global_data.groupby('conversation_id')
+    valid_groups = []
+    for cid, group in groups:
+        # 모든 행의 used 값이 False이고, 그룹 내에 overlapping 값이 "TT"인 행이 존재하는 그룹 필터링
+        if group['used'].apply(lambda x: bool(x) == False).all() and (group['overlapping'] == "TT").any():
+            valid_groups.append((cid, group))
+    if not valid_groups:
+        return None
+    chosen_cid, chosen_group = random.choice(valid_groups)
+    # 선택된 그룹의 모든 행의 used 값을 True로 업데이트
+    global_data.loc[global_data['conversation_id'] == chosen_cid, 'used'] = True
+    save_global_data(global_data)
+    # 선택된 그룹에서 overlapping 값이 "TT" 또는 "GT"가 아닌 행들만 필터링
+    valid_rows = chosen_group[~chosen_group['overlapping'].isin(["TT", "GT"])]
+    # 유효한 행이 2개 미만이면 None 반환
+    if valid_rows.shape[0] < 2:
+        return None
+    # 유효한 행들 중 2개를 랜덤하게 선택
+    chosen_rows = valid_rows.sample(2)
+    # 두 행의 text를 결합하여 하나의 대화 텍스트로 만듭니다.
+    combined_text = f"{chosen_rows.iloc[0]['text'].strip()} [turn] {chosen_rows.iloc[1]['text'].strip()}"
+    return {"text": combined_text}
+def get_conversation():
+    """
+    get_random_row_from_dataset()를 호출하여 대화 문자열을 가져오고,
+    "[turn]" 구분자를 기준으로 인간 메시지와 AI 메시지를 분리하여 반환합니다.
+    """
+    row = get_random_row_from_dataset()
+    if row is None:
+        return "No valid conversation available.", "No valid conversation available."
+    else:
+        raw_text = row['text']
+        parts = raw_text.split("[turn]")
+        if len(parts) < 2:
+            return "Invalid conversation format", "Invalid conversation format"
+        human_message = parts[0].strip()
+        ai_message = parts[1].strip()
+        return human_message, ai_message
+# Gradio 인터페이스 생성 (왼쪽: Human Message, 오른쪽: AI Message)
+with gr.Blocks() as demo:
+    gr.Markdown("## Random Conversation Generator")
+    with gr.Row():
+        human_text = gr.Textbox(label="Human Message", lines=10, interactive=False)
+        ai_text = gr.Textbox(label="AI Message", lines=10, interactive=False)
+    generate_btn = gr.Button("Generate Conversation")
+    generate_btn.click(fn=get_conversation, inputs=[], outputs=[human_text, ai_text])
+demo.launch()