Spaces:

Novoo5
/

cardioqa-ai-system

Sleeping

App Files Files Community

cardioqa-ai-system / src /data_pipeline /collect_medquad.py

Novoo5

Add CardioQA system files - API, database, and medical data

77bc432 verified about 1 month ago

raw

history blame contribute delete

5.68 kB

	"""
	CardioQA Data Collection Module
	Collects and processes medical Q&A data from MedQuAD dataset
	Author: Novonil Basak
	Date: October 2, 2025
	"""

	import os
	import pandas as pd
	import requests
	from datasets import load_dataset
	from pathlib import Path
	import json
	from tqdm import tqdm
	import logging

	# Setup logging
	logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
	logger = logging.getLogger(__name__)

	class MedicalDataCollector:
	"""Collect and process medical datasets for CardioQA RAG system"""

	def __init__(self, data_dir="data/raw"):
	self.data_dir = Path(data_dir)
	self.data_dir.mkdir(parents=True, exist_ok=True)

	def collect_medquad_dataset(self):
	"""Collect MedQuAD dataset from HuggingFace"""
	logger.info("Starting MedQuAD dataset collection...")

	try:
	# Load MedQuAD dataset from HuggingFace
	logger.info("Loading MedQuAD from HuggingFace...")
	dataset = load_dataset("keivalya/MedQuad-MedicalQnADataset")

	# Convert to pandas DataFrame
	df = pd.DataFrame(dataset['train'])
	logger.info(f"Loaded {len(df)} medical Q&A pairs")

	# Basic data inspection
	logger.info("Dataset columns: " + str(df.columns.tolist()))
	logger.info("Dataset shape: " + str(df.shape))

	# Save raw dataset
	raw_file_path = self.data_dir / "medquad_raw.csv"
	df.to_csv(raw_file_path, index=False)
	logger.info(f"Saved raw MedQuAD to {raw_file_path}")

	return df

	except Exception as e:
	logger.error(f"Error collecting MedQuAD dataset: {str(e)}")
	return None

	def filter_cardiac_data(self, df):
	"""Filter dataset for cardiology-related content"""
	logger.info("Filtering for cardiology-related content...")

	# Cardiac-related keywords
	cardiac_keywords = [
	'heart', 'cardiac', 'cardiology', 'cardiovascular', 'coronary',
	'arrhythmia', 'hypertension', 'blood pressure', 'chest pain',
	'heart attack', 'myocardial', 'atrial', 'ventricular', 'valve',
	'pacemaker', 'ECG', 'EKG', 'angina', 'stroke', 'circulation'
	]

	# Create cardiac filter mask
	cardiac_mask = df.apply(
	lambda row: any(
	keyword.lower() in str(row).lower()
	for keyword in cardiac_keywords
	), axis=1
	)

	cardiac_df = df[cardiac_mask].copy()
	logger.info(f"Found {len(cardiac_df)} cardiac-related Q&A pairs")

	# Save filtered cardiac data
	cardiac_file_path = self.data_dir / "medquad_cardiac.csv"
	cardiac_df.to_csv(cardiac_file_path, index=False)
	logger.info(f"Saved cardiac data to {cardiac_file_path}")

	return cardiac_df

	def display_sample_data(self, df, n_samples=3):
	"""Display sample Q&A pairs"""
	logger.info(f"Sample {n_samples} Q&A pairs:")
	print("\n" + "="*80)

	for i, row in df.head(n_samples).iterrows():
	print(f"Q{i+1}: {row.iloc[0] if len(row) > 0 else 'No question'}")
	print(f"A{i+1}: {row.iloc[1] if len(row) > 1 else 'No answer'}")
	print("-" * 60)

	def get_dataset_statistics(self, df):
	"""Generate basic statistics about the dataset"""
	stats = {
	'total_pairs': len(df),
	'columns': df.columns.tolist(),
	'missing_values': df.isnull().sum().to_dict(),
	'data_types': df.dtypes.to_dict()
	}

	# Save statistics
	stats_file = self.data_dir / "dataset_statistics.json"
	with open(stats_file, 'w') as f:
	json.dump(stats, f, indent=2, default=str)

	logger.info("Dataset Statistics:")
	logger.info(f"- Total Q&A pairs: {stats['total_pairs']}")
	logger.info(f"- Columns: {stats['columns']}")
	logger.info(f"- Statistics saved to {stats_file}")

	return stats

	def main():
	"""Main execution function"""
	print("🫀 CardioQA Data Collection Pipeline")
	print("=" * 50)

	# Initialize collector
	collector = MedicalDataCollector()

	# Step 1: Collect MedQuAD dataset
	print("\n📊 Step 1: Collecting MedQuAD Dataset...")
	medquad_df = collector.collect_medquad_dataset()

	if medquad_df is not None:
	# Step 2: Generate statistics
	print("\n📈 Step 2: Analyzing Dataset...")
	stats = collector.get_dataset_statistics(medquad_df)

	# Step 3: Display samples
	print("\n👀 Step 3: Sample Data Preview...")
	collector.display_sample_data(medquad_df, n_samples=3)

	# Step 4: Filter cardiac data
	print("\n🫀 Step 4: Filtering Cardiac Data...")
	cardiac_df = collector.filter_cardiac_data(medquad_df)

	# Step 5: Display cardiac samples
	if len(cardiac_df) > 0:
	print("\n💓 Step 5: Cardiac Data Preview...")
	collector.display_sample_data(cardiac_df, n_samples=2)

	print("\n✅ Data collection completed successfully!")
	print(f"📁 Files saved in: {collector.data_dir}")

	else:
	print("❌ Data collection failed!")

	if __name__ == "__main__":
	main()